Step Audio 2.5 Realtime เปิดตัวแล้ว: คะแนนความพึงพอใจ 80.41 ทุบ GPT-Realtime-1.5 ด้วยส่วนต่าง 18% ค่าโทรด้วยเสียง 3.8 หยวน/ชั่วโมง

ตามรายงานของ Beating, Step Audio 2.5 Realtime ซึ่งเป็นโมเดลเสียงเรียลไทม์แบบ end-to-end ของ Step Cosmos ได้เปิดตัวบน API แพลตฟอร์มแบบเปิดในเดือนเมษายน 2026 โดยโมเดลเน้นการสนทนาอย่างเป็นธรรมชาติ พร้อมตัวตน/บุคลิกของตัวละครที่ปรับแต่งได้ และการรับรู้พาราลิงกวติก (โทน การเว้นจังหวะ เสียงถอนหายใจ)

ในการทดสอบอย่างเป็นทางการใน 5 มิติ Step Audio 2.5 Realtime ได้อันดับ 1 ในทุกหมวด ผลคะแนนประเมินเชิงอัตวิสัย (บทสนทนาผ่านแอปโทรศัพท์ของผู้ใช้จริง) ทำได้ 80.41 เทียบกับ 68.01 ของ GPT-Realtime-1.5 และ 67.16 ของ Gemini Live ส่วนเกณฑ์ Voice Q&A ทำคะแนน 79.80 ซึ่งเกือบ 1.5 เท่าของ 53.20 ของ GPT-Realtime-1.5 ราคา API: 10 หยวนต่อ 1 ล้านโทเคนอินพุต (2 หยวนเมื่อ cache hit), 70 หยวนต่อ 1 ล้านโทเคนเอาต์พุต โดยคาดว่าการโทรด้วยเสียงแบบต่อเนื่องอยู่ที่ 3.8 หยวนต่อชั่วโมง

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น