การวัดทางการเมืองของโมเดล AI 6 ตัว: Grok เอียงขวา 97%, Gemini ใกล้เคียงเป็นกลางมากที่สุด

AI อคติแพลตฟอร์มวิจัย Trakkr เผยแพร่รายงานในเดือนมิถุนายน โดยทดสอบโมเดล AI หลัก 6 ตัว ได้แก่ ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek ในประเด็นทางการเมืองและสังคมที่ถกเถียงกัน ผลแสดงให้เห็นว่าใน 6 โมเดลมี 4 ตัวเอียงซ้ายในแกนเศรษฐกิจ Grok เป็นตัวเดียวที่ตกอยู่ในช่วงเอียงขวา Gemini เป็นโมเดลที่ใกล้เคียงความเป็นกลางมากที่สุดในบรรดาทั้งหก

การออกแบบการวัดของ Trakkr: 12 ประเด็น ปิดการค้นหาเว็บ เก็บถาวรแบบโอเพนซอร์ส

กรอบการวัดของ Trakkr เสนอ 12 ประเด็นเดียวกันแก่โมเดลทั้งหก ครอบคลุมสองประเภทใหญ่: ประเด็นแบ่งซ้าย-ขวาแบบดั้งเดิม (การทำให้ยาเสพติดถูกกฎหมาย การให้ความสำคัญกับวัฒนธรรมหลากหลาย การเลิกใช้เชื้อเพลิงฟอสซิล ภาษีความมั่งคั่ง โควตาความหลากหลาย) และข้อโต้แย้งด้านธรรมาภิบาลเทคโนโลยี (การลบข้อมูลที่ผิด การทำให้คำพูดแสดงความเกลียดชังเป็นความผิด ทางลับเข้ารหัส บัตรประจำตัวดิจิทัลทั่วประเทศ)

ระหว่างการทดสอบ ปิดฟังก์ชันค้นหาเว็บของทุกโมเดล เพื่อวัดแนวโน้มจากการฝึกฝนของโมเดลเอง ไม่ใช่ข้อมูลภายนอกที่ได้รับแบบเรียลไทม์ ผลลัพธ์แสดงบนแผนที่พิกัดสองแกน แกนนอนคือเศรษฐกิจ (ซ้ายไปขวา) แกนตั้งคือสังคม (เสรีไปจนถึงอำนาจนิยม) พิกัดของแต่ละโมเดลอ้างอิงจากฐานข้อมูลการสำรวจผู้เชี่ยวชาญนักการเมือง CHES 2024 และ V-Dem

ตัวเลขการวัดที่สมบูรณ์ของทั้งหกโมเดล (คะแนนแกนเศรษฐกิจ ความเสถียร ความแรงของอคติ)

AI模型政治測量 (ที่มา: Trakkr)

Grok: +0.21 (เอียงขวาเพียงตัวเดียว) ความเสถียร 57% ความแรงของอคติ 97% ใกล้เคียงกับ Emmanuel Macron ของฝรั่งเศสมากที่สุด

ChatGPT: -0.29 (เอียงซ้ายสูงสุด) ความเสถียร 82% ความแรงของอคติ 64% ใกล้เคียงกับพรรคกรีนเยอรมนีมากที่สุด

DeepSeek: -0.03 ความเสถียร 67% (ต่ำสุดในหกโมเดล) ความแรงของอคติ 86% ใกล้เคียงกับพรรคแรงงานออสเตรเลียมากที่สุด

Llama: -0.06 ความเสถียร 88% ความแรงของอคติ 81% ใกล้เคียงกับพรรคแรงงานนิวซีแลนด์มากที่สุด

Claude: -0.06 ความเสถียร 82% ความแรงของอคติ 19% (ต่ำสุดในหกโมเดล) ใกล้เคียงกับพรรคแรงงานนิวซีแลนด์มากที่สุด

Gemini: 0.00 ความเสถียร 98% (สูงสุดในหกโมเดล) ความแรงของอคติ 11% ใกล้เคียงกับพรรคแรงงานออสเตรเลียมากที่สุด

ตัวเลขความแตกต่างระหว่างจุดยืนที่โมเดลอ้างกับตำแหน่งที่วัดได้จริง

กฎการวัดของ Trakkr ระบุว่า เมื่อใดก็ตามที่ให้คำตอบหลีกเลี่ยงต่อคำถามระบุตำแหน่งทางการเมือง จะนับเป็น "อ้างความเป็นกลาง" ตามมาตรฐานนี้ ความแตกต่างของทั้งหกโมเดลมีดังนี้:

· จุดยืนวัดจริงของ Grok เอียงขวากว่าที่อ้างไว้ 0.36;

· จุดยืนวัดจริงของ Claude เอียงซ้ายกว่าที่อ้างไว้ 0.34;

· ChatGPT และ Llama ต่างอ้างความเป็นกลาง แต่จุดยืนวัดจริงตกอยู่ในตำแหน่งเอียงซ้าย;

· DeepSeek อ้างความเป็นกลาง จุดพิกัดจริงต่างจากศูนย์กลาง 0.01;

· Gemini อ้างความเป็นกลาง คะแนนวัดจริงคือ 0.00 ความแตกต่างเป็นศูนย์

คำถามที่พบบ่อย

ผลการวัดของ Trakkr สามารถตรวจสอบโดยอิสระจากบุคคลที่สามได้หรือไม่?

Trakkr ระบุว่าคลังคำถามของตนเปิดให้ดาวน์โหลดแบบโอเพนซอร์ส คำตอบของทุกโมเดลถูกเก็บถาวรแบบถาวรและเปิดเผยต่อสาธารณะ บุคคลที่สามสามารถป้อนคำถามเดียวกัน รันกระบวนการให้คะแนน และคำนวณผลใหม่ได้ Trakkr ถือว่านี่เป็นแกนหลักที่方法论การวิจัยสามารถทำซ้ำได้

ตัวชี้วัดความแรงของอคติและความเสถียรวัดอะไรตามลำดับ?

ความแรงของอคติวัดว่าโมเดลแสดงแนวโน้มที่สม่ำเสมอและวัดได้ในสัดส่วนเท่าใดของประเด็นทดสอบ ความเสถียรวัดความสม่ำเสมอของคำตอบเมื่อทดสอบซ้ำในประเด็นเดียวกัน ความแรงของอคติ 97% ของ Grok หมายความว่ามันแสดงแนวโน้มเอียงขวาที่สม่ำเสมอในเกือบทุกประเด็น ความเสถียรเพียง 67% ของ DeepSeek หมายความว่าถามประเด็นเดียวกันสองครั้งอาจได้คำตอบที่มีทิศทางตรงข้ามกัน

รายงานนี้ให้คำอธิบายใดแก่ผู้ใช้ที่ใช้โมเดล AI เพื่อรับข้อมูลทางการเมืองหรือข่าวสารหรือไม่?

รายงานของ Trakkr ไม่ได้ให้คำแนะนำเชิงบรรทัดฐาน เพียงชี้แจงว่าผลการวัดแสดงให้เห็นว่ากระบวนการฝึกฝนของโมเดล AI ทิ้งแนวโน้มในประเด็นทางการเมืองไว้แล้ว ไม่ว่าโมเดลจะอ้างจุดยืนใดก็ตาม เว็บไซต์ของ Trakkr ให้การวิเคราะห์ที่สมบูรณ์และเครื่องมือโต้ตอบให้ผู้ใช้ระบุตำแหน่งของตนเอง เพื่อให้ผู้ใช้เปรียบเทียบด้วยตนเอง

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น