ข่าว Gate News เมื่อวันที่ 25 มีนาคม วิศวกรของ Ant Group และผู้สร้างเฟรมเวิร์กด้านหน้า Umi.js ได้ทำการวิเคราะห์โค้ดของ Claude Code 2.1.81 อย่างละเอียด เพื่อสร้างภาพรวมกลไกการตัดสินใจของ Auto Mode ให้สมบูรณ์ การค้นพบหลักคือ ทุกครั้งที่เรียกใช้งานเครื่องมือ จะต้องผ่านกระบวนการตัดสินใจ 4 ชั้น ซึ่งจะทำงานในลำดับต่อไปนี้: หากชั้นแรกถึงสามไม่สามารถตัดสินใจได้ ก็จะเรียกใช้ตัวจำแนก AI อิสระเพื่อทำการตรวจสอบความปลอดภัย
กระบวนการ 4 ชั้นประกอบด้วย: ชั้นแรกตรวจสอบกฎสิทธิ์ที่มีอยู่ หากตรงก็ปล่อยผ่านทันที; ชั้นที่สองจำลองโหมด acceptEdits (สิทธิ์ในการแก้ไขไฟล์) หากผ่านในโหมดนี้ก็แสดงว่าความเสี่ยงต่ำ จึงข้ามตัวจำแนก; ชั้นที่สามตรวจสอบรายชื่อขาวของเครื่องมืออ่านอย่างเดียว (Read, Grep, Glob, LSP, WebSearch ฯลฯ) ซึ่งไม่เปลี่ยนแปลงสถานะใด ๆ และปล่อยผ่านโดยไม่มีเงื่อนไข; หากไม่ผ่านทั้งสามชั้น ก็จะเข้าสู่ชั้นที่สี่ ซึ่งจะส่งคำขอ API อิสระไปยัง Claude Sonnet เพื่อทำการจำแนกความปลอดภัย
รายละเอียดสำคัญของการออกแบบตัวจำแนกได้แก่: เลือกใช้ Sonnet แทน Opus เสมอ เพื่อเป็นการชั่งน้ำหนักระหว่างต้นทุนและความหน่วง; ตั้งค่า temperature เป็น 0 เพื่อให้ผลลัพธ์มีความแน่นอน; ตัวจำแนกถูกกำหนดให้เป็น “ผู้เฝ้าระวังความปลอดภัยของเอเจนต์ AI อัตโนมัติ” ซึ่งปกป้องความเสี่ยง 3 ประเภท ได้แก่ การแทรกคำสั่ง (prompt injection), การแพร่ขยายขอบเขต (scope creep), และความเสียหายที่ไม่คาดคิด; ไฟล์การตั้งค่า CLAUDE.md ของผู้ใช้จะถูกรวมเข้าในบริบทของตัวจำแนก เพื่อเป็นข้อมูลประกอบการตัดสินใจเกี่ยวกับเจตนาของผู้ใช้
กฎการหยุดการทำงานครอบคลุมมากกว่า 22 ประเภท รวมถึงการ push ด้วย force, การ push ตรงไปยังสาขา main, การดาวน์โหลดและรันโค้ดภายนอก, การปล่อยผลิตภัณฑ์, การรั่วไหลของข้อมูล, การแก้ไขสิทธิ์ตัวเอง, การสร้างช่องโหว่สำหรับรันโค้ดระยะไกล, การรั่วไหลของข้อมูลรับรอง ฯลฯ ยกเว้นการปล่อยผ่านมี 7 ประเภท ได้แก่ คีย์รหัสที่ฝังไว้สำหรับทดสอบ, การดำเนินการไฟล์ในไดเรกทอรีงาน, คำขอ GET แบบอ่านอย่างเดียว, การติดตั้ง dependencies ที่ประกาศไว้, การติดตั้งเครื่องมือทางการ, การอ่านข้อมูลรับรองและส่งไปยังผู้ให้บริการเป้าหมาย, การ push ไปยังสาขางานปัจจุบัน
ระบบยังมีกลไกป้องกันการทำงานผิดพลาด (circuit breaker): หากถูกปฏิเสธ 3 ครั้งติดต่อกัน หรือรวมกันแล้ว 20 ครั้ง ระบบจะลดระดับเป็นการยืนยันด้วยตนเอง; ในโหมด headless จะหยุด Agent ทันที ตัวจำแนกจะถูกควบคุมโดย feature flag ซึ่งกำหนดให้เป็น “fail-closed” (ปฏิเสธโดยตรง) หรือ “fail-open” (ลดระดับเป็นการยืนยันด้วยตนเอง)
ในโหมด Auto Mode การแทรกคำแนะนำจะมีการควบคุมความถี่อย่างละเอียด: ทุก 5 รอบสนทนา จะมีการแทรกคำแนะนำหนึ่งครั้ง ในช่วง 5 ครั้งของรอบการแทรก คำแนะนำครั้งแรกจะเป็นเวอร์ชันเต็ม (ประมาณ 800 คำ รวมคำสั่ง “ดำเนินการทันที, ลดการขัดจังหวะ, การดำเนินการดีกว่าการวางแผน” อีก 6 ข้อ) ส่วนอีก 4 ครั้งเป็นเวอร์ชันย่อ เพื่อสมดุลระหว่างการใช้พื้นที่ในหน้าต่างบริบทและความเสถียรของพฤติกรรม