Laut Beating startete Step Cosmos im April 2026 sein End-to-End-Echtzeit-Sprachmodell Step Audio 2.5 Realtime auf der Open-Platform-API. Das Modell legt den Fokus auf natürliche Konversation mit anpassbaren Charakter-Personas und paralinguistischem Verständnis (Ton, Pausen, Seufzer).
Bei offiziellen Tests über fünf Dimensionen belegte Step Audio 2.5 Realtime in allen Kategorien den ersten Platz. Der subjektive Bewertungswert (Gespräche in der echten Nutzer-Phone-App) erreichte 80,41, im Vergleich zu 68,01 für GPT-Realtime-1.5 und 67,16 für Gemini Live. Der Voice-Q&A-Benchmark erzielte 79,80 und lag damit nahezu 1,5-mal höher als der Wert von GPT-Realtime-1.5 mit 53,20. API-Preisgestaltung: 10 Yuan pro Million Input-Tokens (2 Yuan bei Cache-Treffern), 70 Yuan pro Million Output-Tokens; durchgehend geschätzte Kosten für Echtzeit-Sprachanrufe: 3,8 Yuan pro Stunde.