DGrid AI เผยแพร่เอกสารวิจัย PoQ-Judge ลดต้นทุนการประเมินคุณภาพของ LLM ลง 72%

จากรายงานของ ChainCatcher, DGrid AI ได้เผยแพร่เอกสารวิจัยฉบับล่าสุด "PoQ-Judge" ในวันนี้ โดยนำเสนอกรอบประเมินคุณภาพแบบหลายสถาปัตยกรรมที่ช่วยขจัดความจำเป็นต้องใช้คำตอบอ้างอิง กรอบดังกล่าวทำคะแนนสหสัมพันธ์ 0.747 กับคะแนนการประเมินของมนุษย์บนชุดทดสอบที่ถูกกันไว้ (held-out test sets) พร้อมทั้งลดต้นทุนการประเมินลงมากกว่า 72% ด้วยการประเมินแบบต่อเนื่อง (cascaded evaluation) และการปรับเทียบน้ำหนักแบบออนไลน์ PoQ (Proof of Quality) คือกลไกฉันทามติกรรมสิทธิ์ของ DGrid ที่ออกแบบมาเพื่อป้องกันการนำโมเดลที่มีคุณภาพต่ำไปใช้งาน และการจัดการข้อมูลที่เลเยอร์โปรโตคอล
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น