Claude Fable 5 เพิ่มกลไกตรวจจับการกลั่น โดยอัตราการทริกเกอร์ต่ำกว่า 5%

Claude Fable 5蒸餾偵測機制

แอนโทรปิก (Anthropic) ประกาศเปิดตัว Claude Fable 5 อย่างเป็นทางการเมื่อวันที่ 9 มิถุนายน ซึ่งเป็นโมเดลระดับ Mythos ตัวแรกที่เปิดให้ประชาชนใช้งานได้ โดยผสานกลไกการตรวจจับการกลั่นที่ขับเคลื่อนด้วยตัวจำแนก AI เมื่อระบบตรวจพบคำขอที่มีความเสี่ยงสูง 3 ประเภท เช่น การพยายามกลั่น ระบบจะลดระดับบทสนทนาให้ตอบกลับด้วย Opus 4.8 อัตโนมัติ แอนโทรปิกยืนยันว่ากลไกนี้ส่งผลกระทบต่อบทสนทนาฉลี่ยต่ำกว่า 5% ของ Session ทั้งหมด

สเปกการตรวจจับการกลั่น: เงื่อนไขทริกเกอร์ 3 ประเภทและกลไกลดระดับอัตโนมัติ

ตามคำแถลงอย่างเป็นทางการของ Anthropic เงื่อนไขการทริกเกอร์ของตัวจำแนก AI ใน Claude Fable 5 มีดังนี้:

· คำขอที่เกี่ยวข้องกับการโจมตีด้านความปลอดภัยทางเครือข่าย

· คำขอที่เกี่ยวข้องกับอาวุธชีวภาพหรืออาวุธเคมี

· ความพยายามกลั่นโมเดล (รวมถึงเทคนิคการดึงข้อมูล เช่น การเขียน prompt ใหม่, steering vectors และการปรับจูนแบบมีประสิทธิภาพด้วยพารามิเตอร์ PEFT)

เมื่อถูกทริกเกอร์ ระบบจะลดระดับบทสนทนาให้ตอบกลับด้วย Claude Opus 4.8 อัตโนมัติและแจ้งผู้ใช้งาน แอนโทรปิกยืนยันว่าอัตราความสำเร็จของการสกัดกั้นงานด้านความปลอดภัยทางเครือข่ายเชิงรุกอยู่ที่ 100% และผลกระทบโดยรวมของกลไกนี้ต่ำกว่า 5% ของบทสนทนาใน Session

ตัวเลขยืนยันสำหรับข้อกล่าวหาเดือนกุมภาพันธ์ 2026

แอนโทรปิกยืนยันอย่างเป็นทางการว่า ข้อกล่าวหาในเดือนกุมภาพันธ์ 2026 มีเป้าหมายไปที่ DeepSeek, Moonshot AI และ MiniMax โดยมีการส่งคำค้นมากกว่า 16 ล้านครั้งผ่านบัญชีปลอมประมาณ 24,000 บัญชี เพื่อสกัดเอาผลลัพธ์ของ Claude อย่างเป็นระบบไปใช้ในการฝึกโมเดลของตนเอง

ตัวเลขจำนวนคำค้นที่นักวิจัยด้านแมชชีนเลิร์นนิง Nathan Lambert (นักวิจัยอิสระภายนอก ไม่ใช่เจ้าหน้าที่ของ Anthropic) แยกย่อยภายหลัง มีดังนี้: DeepSeek ประมาณ 150,000 ครั้ง (สำหรับโมเดลด้านการให้เหตุผลและโมเดลด้านรางวัล), Moonshot AI ประมาณ 3.4 ล้านครั้ง, MiniMax ประมาณ 13 ล้านครั้ง โดยข้อมูลสำหรับการฝึกภายหลังที่สอดคล้องกับสองรายหลังรวมกันอยู่ที่ราว 150,000 ถึง 400,000 ล้าน token ตัวเลขของ Lambert เป็นการวิเคราะห์อิสระของเขา ไม่ใช่ข้อมูลอย่างเป็นทางการของ Anthropic

ข้อจำกัดที่ทราบของกลไก: เส้นแบ่งระหว่างการกลั่นที่ถูกกฎหมายกับการกลั่นที่ไม่ได้รับอนุญาตไม่ชัดเจน

แอนโทรปิกยืนยันว่า “การกลั่นที่ถูกกฎหมาย” (ตามการใช้งานเอาต์พุตของ Claude ที่ได้รับอนุญาต) และ “การกลั่นที่ไม่ได้รับอนุญาต” มีความคล้ายคลึงกันแทบจะในระดับการปฏิบัติทางเทคนิค ทำให้เส้นแบ่งนิยามยังมีพื้นที่คลุมเครืออยู่ Nathan Lambert ระบุในบทวิเคราะห์ภายนอกของเขาว่า “การปิดกั้นการกลั่นนั้น ยากกว่าการจำกัดการจัดส่งสินค้าทางกายภาพอย่าง GPU เสียอีก”

Lambert ยังชี้ด้วยว่า ตราบใดที่ Anthropic ยังจำหน่าย API ช่องทางการกลั่นก็ไม่สามารถปิดได้อย่างสมบูรณ์ แม้ห้องปฏิบัติการในจีนจะอยู่ในสภาพแวดล้อมที่จำกัด GPU แต่โครงสร้างพื้นฐานการเรียนรู้แบบเสริมด้วยแรงจูงใจ (RL) ก็ยังคงสมบูรณ์ ทำให้ยังอาศัยโมเดลโอเพนซอร์สของ Meta และ Google รวมถึงท่อการสร้างข้อมูลสังเคราะห์ของตนเองได้ การประเมินข้างต้นเป็นการวิเคราะห์อิสระภายนอกของ Lambert ไม่ใช่จุดยืนของ Anthropic

คำถามที่พบบ่อย

การตรวจจับการกลั่นของ Claude Fable 5 ต่างจากข้อกำหนดต่อต้านการกลั่นในที่ใช้งานก่อนหน้านี้อย่างไร?

ข้อกำหนดต่อต้านการกลั่นก่อนหน้านี้ของ Anthropic มักปรากฏอยู่ใน Terms of Service โดยอาศัยข้อผูกมัดเชิงกฎหมาย ในขณะที่วิธีการของ Claude Fable 5 คือการบูรณาการตัวจำแนก AI เข้ากับตัวโมเดลโดยตรง ไปสกัดกั้นความพยายามในการกลั่นที่ตรวจพบในระดับเทคนิคและลดระดับการตอบกลับโดยอัตโนมัติ โดยไม่ต้องรอให้กระบวนการทางกฎหมายเข้ามาเกี่ยวข้อง

การกลั่นโมเดลคืออะไร และเหตุใดการกลั่นที่ถูกกฎหมายกับการกลั่นที่ไม่ได้รับอนุญาตจึงยากที่จะกำหนดอย่างแม่นยำในเชิงเทคนิค?

การกลั่นโมเดล (Knowledge Distillation) คือการใช้เอาต์พุตจากโมเดลขนาดใหญ่เพื่อฝึกโมเดลขนาดเล็ก ทำให้โมเดลหลังเรียนรู้ความสามารถของโมเดลก่อน การกลั่นที่ถูกกฎหมาย (การใช้งานเอาต์พุตที่ได้รับอนุญาต) และการกลั่นที่ไม่ได้รับอนุญาต (การค้นหาเชิงระบบและสกัดข้อมูลเพื่อใช้เป็นข้อมูลฝึก) มีรูปแบบการปฏิบัติทางเทคนิคเกือบเหมือนกัน ทำให้การจัดหมวดหมู่อัตโนมัติของตัวจำแนก AI มีความยากในการตัดสิน

กลไกนี้ส่งผลกระทบที่ทราบแล้วอย่างไรต่อกระบวนการฝึกของห้องปฏิบัติการ AI ในจีน เช่น DeepSeek?

Anthropic ยังไม่เปิดเผยข้อมูลเชิงปริมาณที่เฉพาะเจาะจงของผลกระทบของกลไกนี้ต่อห้องปฏิบัติการแต่ละแห่ง นักวิจัยภายนอก Nathan Lambert ระบุในบทวิเคราะห์ว่า ห้องปฏิบัติการในจีนมีโมเดลโอเพนซอร์สของ Meta และ Google มีโครงสร้างพื้นฐานการเรียนรู้แบบเสริมด้วยแรงจูงใจของตนเอง และมีไลน์การสร้างข้อมูลสังเคราะห์ การป้องกันการกลั่นจึงเป็นเพียงสิ่งรบกวน ไม่ใช่อุปสรรคที่ขัดขวางได้อย่างเป็นรากฐาน การประเมินของ Lambert เป็นการวิเคราะห์อิสระภายนอก ไม่ใช่จุดยืนอย่างเป็นทางการของ Anthropic

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น