ตามรายงานของ Beating, Step Audio 2.5 Realtime ซึ่งเป็นโมเดลเสียงเรียลไทม์แบบ end-to-end ของ Step Cosmos ได้เปิดตัวบน API แพลตฟอร์มแบบเปิดในเดือนเมษายน 2026 โดยโมเดลเน้นการสนทนาอย่างเป็นธรรมชาติ พร้อมตัวตน/บุคลิกของตัวละครที่ปรับแต่งได้ และการรับรู้พาราลิงกวติก (โทน การเว้นจังหวะ เสียงถอนหายใจ)
ในการทดสอบอย่างเป็นทางการใน 5 มิติ Step Audio 2.5 Realtime ได้อันดับ 1 ในทุกหมวด ผลคะแนนประเมินเชิงอัตวิสัย (บทสนทนาผ่านแอปโทรศัพท์ของผู้ใช้จริง) ทำได้ 80.41 เทียบกับ 68.01 ของ GPT-Realtime-1.5 และ 67.16 ของ Gemini Live ส่วนเกณฑ์ Voice Q&A ทำคะแนน 79.80 ซึ่งเกือบ 1.5 เท่าของ 53.20 ของ GPT-Realtime-1.5 ราคา API: 10 หยวนต่อ 1 ล้านโทเคนอินพุต (2 หยวนเมื่อ cache hit), 70 หยวนต่อ 1 ล้านโทเคนเอาต์พุต โดยคาดว่าการโทรด้วยเสียงแบบต่อเนื่องอยู่ที่ 3.8 หยวนต่อชั่วโมง