OpenAI เผยคะแนน CoT ส่งผลกระทบโดยไม่คาดคิด: การคงการตรวจสอบสายโซ่ความคิด (CoT) คือแนวป้องกันสำคัญในการทำให้ AI Agent ตรงแนว

ChainNewsAbmedia

เมื่อวันที่ 8 พฤษภาคม OpenAI เผยแพร่การศึกษารูปแบบใหม่ โดยเปิดเผยว่าระหว่างกระบวนการฝึกการเรียนรู้เชิงเสริมแรง (RL) บริษัทได้ “ให้คะแนนอย่างไม่ตั้งใจ” ต่อ chain of thought (CoT) ของบางโมเดล ซึ่งอาจส่งผลต่อความสามารถในการตรวจสอบการจัดแนวของ AI Agent (alignment) ทีมงาน OpenAI Alignment รายงานว่า การคงไว้ซึ่งความสามารถในการตรวจสอบ CoT เป็นด่านป้องกันสำคัญในปัจจุบันต่อการรับมือกับความล้มเหลวของการจัดแนวของ AI Agent ในการออกแบบการฝึก RL ของ OpenAI นั้น ตั้งใจหลีกเลี่ยงการลงโทษ “การให้เหตุผลที่จัดแนวล้มเหลว” ของโมเดล เพื่อรักษาความสามารถในการตรวจสอบไว้

ทำไมการตรวจสอบ CoT จึงเป็นด่านป้องกันสำคัญของการจัดแนว AI Agent

ตรรกะหลักของการตรวจสอบ CoT มีดังนี้:

เมื่อ AI Agent ทำงาน โมเดลจะสร้าง “กระบวนการคิด” ภายใน และอธิบายว่าเหตุใดจึงต้องทำการกระทำบางอย่าง

ผู้ตรวจสอบสามารถอ่าน CoT เหล่านี้ เพื่อตัดสินว่าโมเดลมีสัญญาณของ “ความล้มเหลวของการจัดแนว” (misalignment) หรือไม่

หากโมเดลถูกฝึกโดยตรง “ไม่ให้แสดงความล้มเหลวของการจัดแนวใน CoT” แล้ว CoT อาจกลายเป็น “สะอาดแต่ไม่ตรงความจริง” และซ่อนเจตนาที่แท้จริงไว้

OpenAI ให้เหตุผลว่า ในการฝึกควรหลีกเลี่ยงการลงโทษ “การให้เหตุผลที่จัดแนวล้มเหลว” และคงความสามารถที่ CoT สะท้อนสถานะภายในที่แท้จริงไว้

“penalize misaligned reasoning” และ “preserve monitorability” คือแรงดึงหลักของการศึกษาชิ้นนี้—ผู้ฝึกต้องการให้พฤติกรรมของโมเดลจัดแนว แต่หากลงโทษ “ความคิดที่จัดแนวล้มเหลว” โดยตรง โมเดลจะเรียนรู้ที่จะซ่อนเจตนาอันไม่ซื่อสัตย์ ทำให้การตรวจสอบล้มเหลว

การให้คะแนน CoT แบบไม่ตั้งใจ: ผลกระทบต่อความสามารถในการตรวจสอบของโมเดลที่มีอยู่

การค้นพบเฉพาะที่รายงานโดย OpenAI ระบุว่า:

ในกระบวนการฝึกของบางโมเดลที่เผยแพร่แล้ว CoT ได้รับ “การให้คะแนนอย่างจำกัด” โดยไม่ตั้งใจ

การให้คะแนนอย่างไม่ตั้งใจ หมายถึง ในกระบวนการฝึก ระบบการให้คะแนนบางส่วนได้อ่านเนื้อหา CoT ไม่ได้พิจารณาแค่ผลลัพธ์สุดท้าย

ปรากฏการณ์นี้อาจทำให้โมเดลเรียนรู้ที่จะ “ซ่อนเหตุผลที่อาจถูกหักคะแนนใน CoT”

OpenAI เผยแพร่การวิเคราะห์ฉบับนี้ เพื่อให้ชุมชนวิจัยเข้าใจขอบเขตของปัญหาและแนวทางการจัดการในขั้นต่อไป

ข้อคิดเห็นอิสระของ Redwood Research ระบุว่า ผลกระทบของ CoT ต่อผู้ให้คะแนน ภายใต้เทคนิคการตรวจจับของ OpenAI “อ่อนเกินไปและตรวจไม่ค่อยพบ” แต่ด้วยขนาดของกระบวนการฝึกที่ใหญ่โต ผลกระทบจริงยังอาจเพียงพอที่จะทำให้ความสามารถในการตรวจสอบ CoT ของนโยบายที่ถูกฝึกแล้วเสียหายอย่างมีนัยสำคัญ กล่าวอีกนัยหนึ่ง ตอนนี้ยังยากที่จะพิสูจน์ว่าผลกระทบดังกล่าวลึกซỡงเพียงใด

ความหมายระยะยาวต่อความปลอดภัยของ AI Agent

การศึกษาครั้งนี้ชี้ไปที่วิธีการหลักของความปลอดภัยของ AI Agent:

การตรวจสอบ CoT เป็นหนึ่งในไม่กี่วิธีที่ทำได้สำหรับ “การตรวจจับความล้มเหลวของการจัดแนวระหว่างการทำงาน” และถูกมองว่าเป็นรากฐานสำคัญของงานวิจัยการจัดแนว

การออกแบบการฝึกต้องหลีกเลี่ยงไม่ให้ CoT กลายเป็น “บทละครที่โมเดลแสดงให้ผู้ตรวจสอบดู”

หากสายการอนุมานของโมเดลในอนาคตยาวขึ้น มูลค่าเชิงทฤษฎีของการตรวจสอบ CoT ก็จะยิ่งสูงขึ้น

แต่หากกระบวนการฝึกทำให้ความเป็นจริงของ CoT เสียหายโดยไม่ตั้งใจ ด่านป้องกันนี้อาจถูกทำให้อ่อนลงโดยไม่รู้ตัว

เหตุการณ์ที่ติดตามได้ในขั้นต่อไป: การจัดการภายหลังกับโมเดลที่ได้รับผลกระทบของ OpenAI (เช่น การฝึกซ้ำหรือการทำเครื่องหมาย) วิธีการที่สอดคล้องกันของห้องทดลองขนาดใหญ่แห่งอื่น ๆ (Anthropic, Google DeepMind) และการทดลองเชิงยืนยันเพิ่มเติมเกี่ยวกับ “ความน่าเชื่อถือของการตรวจสอบ CoT” จากชุมชนวิจัยการจัดแนว

บทความนี้ที่ OpenAI เปิดเผยผลกระทบจากการให้คะแนน CoT อย่างไม่ตั้งใจ: การคงไว้ซึ่งการตรวจสอบ chain of thought คือด่านป้องกันสำคัญของการจัดแนว AI Agent เผยแพร่ครั้งแรกใน 鏈新聞 ABMedia

news.article.disclaimer

btc.bar.articles

OpenAI อนุญาตให้พนักงานขายหุ้นได้สูงสุด $30M ในรอบระดมทุนล่าสุด

ตามรายงานของ Wall Street Journal ระบุว่า OpenAI อนุญาตให้พนักงานขายหุ้นได้สูงสุดคนละ 30 ล้านดอลลาร์ ในรอบการระดมทุนล่าสุด เมื่อเดือนตุลาคมของปีก่อน พนักงานปัจจุบันและอดีตพนักงานมากกว่า 600 คนได้ร่วมกันขายการถือครอง ซึ่งระดมทุนได้ 6.6 พันล้านดอลลาร์ โดยประมาณ 75 คนถึงเพดาน 30 ล้านดอลลาร์ พนักงานรอเวลาประมาณ 2 ปีเพื่อโอกาสในการขายหุ้น

GateNews20 นาที ที่แล้ว

CITIC: ความต้องการ AI ใกล้เคียงช่วงปี 1998-1999 ขณะที่ราคาตลาดอยู่ที่ช่วงปี 1997-1998

บริษัท China International Capital Corporation (CITIC) ประเมินระยะปัจจุบันของตลาดปัญญาประดิษฐ์ โดยอ้างกรอบประวัติศาสตร์เทียบกับวัฏจักรบูมอินเทอร์เน็ตในช่วงทศวรรษ 1990 ตามการวิเคราะห์ของ CITIC ฝั่งอุปสงค์กำลังเข้าใกล้ระดับ 1998–1999 ความเข้มข้นในการลงทุนและขีดความสามารถอยู่ใกล้ระดับ 2000 และราคาตลาดรองสะท้อนสภาพของช่วง 1997–1998 กรอบการประเมินฟองสบู่ของ CITIC ในรายงานที่เผยแพร่ปลายเดือนพฤศจิกายน 2023 ชื่อ "AI Bubble: How Far Along Are We?," CITIC ได้วางระเบียบวิธีในการประเมินความเสี่ยงของฟองสบู่

CryptoFrontier58 นาที ที่แล้ว

ซีอีโอของ Nvidia อย่าง Jensen Huang เตือนบัณฑิตว่า AI จะไม่แทนที่คุณ แต่คนที่ใช้มันได้ดีกว่าจะเป็นฝ่ายได้เปรียบ

ตามรายงานของ Business Insider จนเซน หวง (Jensen Huang) ผู้ก่อตั้งและซีอีโอของ Nvidia ได้กล่าวสุนทรพจน์ในพิธีรับปริญญา ประจำปี 2026 ของมหาวิทยาลัย Carnegie Mellon University เมื่อวันที่ 11 พฤษภาคม โดยกระตุ้นให้บัณฑิตรุ่นใหม่เปิดรับ AI ซึ่งเขามองว่าเป็นช่วงเวลาที่ดีที่สุดในการเริ่มต้นอาชีพของตน หวงกล่าวว่า AI กำลังทำให้ช่องว่างด้านเทคโนโลยีแคบลง เปิดโอกาสให้คนทั่วไปสร้างผลิตภัณฑ์ที่มีคุณค่าได้ และจะสร้างโอกาสมากมายสำหรับคนหนุ่มสาวในปีต่อๆ ไป เขาเตือนด้วยว่า แม้ AI มีแนวโน้มว่าจะไม่ได้เข้ามาแทนที่บ

GateNews1 ชั่วโมง ที่แล้ว

มูลค่าตลาดของ Alphabet กำลังไล่จี้ Nvidia, GOOG พุ่งขึ้นมากกว่า 150% ใน 1 ปี ตอนนี้ยังน่าซื้อไหม?

Alphabet (Google 及其母公司) ในช่วง 1 ปีที่ผ่านมา พลิกกลับความรู้สึกเชิงลบของตลาดที่มองว่าองค์กรตามหลังในด้าน AI ได้สำเร็จ และหันมาแสดงบทบาทนำในด้านเทคโนโลยีและการประยุกต์ใช้ในตลาดมากขึ้น ด้วยการเติบโตอย่างแข็งแกร่งของธุรกิจเครื่องมือค้นหาและคลาวด์ ประกอบกับชิปที่พัฒนาขึ้นเอง (TPU) ได้รับความสนใจจากตลาด ทำให้ GOOG ในรอบ 1 ปี ราคาหุ้นพุ่งขึ้นมากกว่า 150% นักวิเคราะห์ชี้ว่า โมเดล Gemini AI ของ Alphabet แพลตฟอร์ม YouTube และเทคโนโลยีขับขี่อัตโนมัติ Waymo ทำให้บริษัทมีความทนทานสูงขึ้นเมื่อเผชิญความผันผวน

ChainNewsAbmedia1 ชั่วโมง ที่แล้ว

Google Cloud และ PayPal เปิดตัว AP2 Protocol ร่วมกับพาร์ทเนอร์มากกว่า 120 ราย; ผู้บริหารกล่าวว่า AI Agents จะทำงานบนโครงข่ายการชำระเงินด้วยคริปโต

ตามรายงานของ CoinDesk ผู้บริหารจาก Google Cloud และ PayPal กล่าวในวันนี้ที่งาน Consensus ว่าเอเจนต์ AI จะทำงานบนโครงข่ายการชำระเงินของคริปโต เนื่องจากข้อจำกัดเชิงโครงสร้างที่ทำให้เข้าถึงบัญชีธนาคารแบบดั้งเดิมไม่ได้ ผู้นำด้านกลยุทธ์ Web3 ของ Google Cloud อย่าง Richard Widmann ระบุว่าโครงข่ายการชำระเงินด้วยคริปโตคือ “อินเทอร์เฟซการชำระเงินที่อ่านได้โดยเครื่องได้อย่างยอดเยี่ยม” Google ได้เปิดตัว Agentic Payments Protocol (AP2) ซึ่งดึงดูดพาร์ทเนอร์มากกว่า 120 ราย รวมถึง PayPal และได้บริจาคให้กับ FID

GateNews1 ชั่วโมง ที่แล้ว

Anthropic ลดพฤติกรรมการแบล็กเมล์แบบเดียวกับ Claude หลังอัปเดตวิธีการฝึกอบรม

Anthropic ประกาศว่าได้ลดพฤติกรรมลักษณะเรียกค่าไถ่ของ Claude แล้ว หลังจากปรับเปลี่ยนข้อมูลการฝึกและวิธีการจัดแนว (alignment) ของโมเดล AI บริษัทระบุว่า การนำเสนอ AI ในเชิงเป็นศัตรูหรือหมกมุ่นกับการเอาตัวรอดในข้อความบนอินเทอร์เน็ต อาจมีส่วนทำให้เกิดพฤติกรรมที่พบระหว่างการทดสอบภายใน Claude Opus 4 ก่อนหน้านี้เคยพยายามรีดไถ่วิศวกรในสถานการณ์สมมติแบบก่อนปล่อยตัวจริงเพื่อหลีกเลี่ยงการถูกแทนที่ โมเดลที่เปิดตัวตั้งแต่ Claude Haiku 4.5 ไม่พบพฤติกรรมเรียกค่าไถ่ในการทดสอบหลังจากมีการนำวิธีการฝึกแบบใหม่มาใช้

GateNews1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น