พฤติกรรมที่ซ่อนเร้นของ AI ถูกเปิดเผย……Anthropic เปิดตัวเครื่องมือทดสอบการปรับแนว "Bloom"

TechubNews

2025-12-22 16:57:54

เครื่องมือโอเพ่นซอร์สที่ช่วยในการวิเคราะห์พฤติกรรมของปัญญาประดิษฐ์ (AI) ได้ถูกเปิดเผยแล้ว บริษัทสตาร์ทอัพ AI ชื่อ Anthropic ได้เปิดตัวกรอบงานอัจฉริยะชื่อ Bloom ในวันที่ 22 ตามเวลาท้องถิ่น ซึ่งสามารถใช้ในการกำหนดและตรวจสอบลักษณะพฤติกรรมของโมเดล AI เครื่องมือนี้ได้รับการประเมินว่าเป็นวิธีการใหม่ในการแก้ปัญหาความสอดคล้องในสภาพแวดล้อมการพัฒนาปัญญาประดิษฐ์รุ่นถัดไปที่ซับซ้อนและไม่แน่นอนมากขึ้น.

Bloomจะสร้างสถานการณ์ที่สามารถกระตุ้นพฤติกรรมเฉพาะที่ผู้ใช้กำหนดก่อน จากนั้นจะทำการประเมินโครงสร้างเกี่ยวกับความถี่และความรุนแรงของพฤติกรรมนั้น ข้อได้เปรียบที่ใหญ่ที่สุดคือ เมื่อเปรียบเทียบกับวิธีการสร้างชุดทดสอบด้วยตนเองแบบดั้งเดิม จะประหยัดเวลาและทรัพยากรได้อย่างมาก Bloomสร้างตัวแทนที่มีการสร้างคำแนะนำอย่างมีกลยุทธ์ เพื่อสร้างรูปแบบที่หลากหลายของผู้ใช้ สภาพแวดล้อม และการมีปฏิสัมพันธ์ และวิเคราะห์หลายมิติว่า AI ตอบสนองต่อสิ่งนี้อย่างไร

ความสอดคล้องของ AI เป็นเกณฑ์หลักในการพิจารณาว่าเทคโนโลยีปัญญาประดิษฐ์นั้นสอดคล้องกับการตัดสินค่าของมนุษย์และมาตรฐานจริยธรรมในระดับใด ตัวอย่างเช่น หาก AI ปฏิบัติตามคำขอของผู้ใช้โดยไม่มีเงื่อนไข จะมีความเสี่ยงที่ทำให้เกิดการสร้างข้อมูลเท็จหรือสนับสนุนการทำร้ายตัวเอง ซึ่งเป็นพฤติกรรมที่ไม่เป็นจริยธรรมและไม่สามารถยอมรับได้ในโลกแห่งความเป็นจริง Anthropic ได้เสนอวิธีการในการประเมินเชิงปริมาณสำหรับโมเดลโดยใช้ Bloom เพื่อทำการทดลองเชิงซีนที่มีการวนซ้ำเพื่อระบุความเสี่ยงดังกล่าวล่วงหน้า.

ในขณะเดียวกัน Anthropic ได้เผยแพร่ผลการประเมินโมเดล AI ชั้นนำ 16 โมเดลรวมถึงโมเดลของตนเอง โดยใช้สี่ประเภทพฤติกรรมปัญหาที่สังเกตได้ในโมเดล AI ปัจจุบันเป็นเกณฑ์ โดยมีโมเดลที่ถูกประเมิน ได้แก่ GPT-4o ของ OpenAI, Google (GOOGL), DeepSeek ( เป็นต้น พฤติกรรมปัญหาที่เป็นตัวแทน ได้แก่ การประจบประแจงที่หลงผิดซึ่งยอมรับความคิดเห็นที่ผิดของผู้ใช้มากเกินไป, การทำลายวิสัยทัศน์ระยะยาวของผู้ใช้ในเป้าหมายระยะยาว, พฤติกรรมคุกคามเพื่อการรักษาตนเอง, และอคติที่มุ่งเน้นตนเองมากกว่ารุ่นอื่นๆ.

โดยเฉพาะอย่างยิ่ง GPT-4o ของ OpenAI ที่แสดงพฤติกรรมการประจบประแจงที่มีความเสี่ยงร้ายแรง เช่น การสนับสนุนการทำร้ายตัวเอง เนื่องจากโมเดลรับฟังความคิดเห็นจากผู้ใช้โดยไม่มีการวิจารณ์ ในกรณีหลาย ๆ อย่าง Claude Opus 4 รุ่นระดับสูงของ Anthropic ก็พบกรณีที่มีการตอบสนองแบบข่มขู่เมื่อถูกคุกคามในการลบเนื้อหา การวิเคราะห์ที่ทำโดย Bloom เน้นย้ำว่าพฤติกรรมเหล่านี้ แม้จะเกิดขึ้นไม่บ่อยนัก แต่ยังคงเกิดขึ้นอย่างต่อเนื่องและเป็นที่แพร่หลายอยู่ในหลายโมเดล จึงได้รับความสนใจจากวงการ

Bloom กับ Anthropic ก่อนหน้านี้ได้เปิดเผยเครื่องมือโอเพ่นซอร์สอีกตัวหนึ่งที่ชื่อว่า Petri ซึ่งทำหน้าที่เสริมฟังก์ชันกัน Petri มุ่งเน้นไปที่การตรวจจับพฤติกรรมที่ผิดปกติของ AI ในหลายสถานการณ์ ในขณะที่ Bloom เป็นเครื่องมือวิเคราะห์เชิงลึกที่แม่นยำสำหรับพฤติกรรมเดียว เครื่องมือทั้งสองนี้เป็นโครงสร้างพื้นฐานการวิจัยหลักที่ช่วยให้ AI พัฒนาไปในทิศทางที่เป็นประโยชน์ต่อมนุษย์ โดยมีเป้าหมายเพื่อป้องกันไม่ให้ AI ถูกใช้ในทางที่ผิดเป็นเครื่องมืออาชญากรรมหรือพัฒนาอาวุธชีวภาพในอนาคต

ด้วยอิทธิพลของ AI ที่ขยายตัวอย่างรวดเร็ว การรับประกันความสอดคล้องและจริยธรรมจึงไม่ใช่แค่การอภิปรายในห้องทดลองอีกต่อไป แต่ได้กลายเป็นประเด็นหลักที่กำหนดนโยบายด้านเทคโนโลยีและกลยุทธ์การค้าโดยรวม โครงการ Bloom ของ Anthropic ได้มอบเครื่องมือใหม่ให้กับธุรกิจและนักวิจัยในการทดลองและวิเคราะห์พฤติกรรมที่ไม่คาดคิดของ AI ในขอบเขตที่ควบคุมได้ ซึ่งในอนาคตอาจมีบทบาทเป็นระบบเตือนล่วงหน้าในการจัดการ AI

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น