Schritt Audio 2,5 in Echtzeit veröffentlicht: Subjektiver Score 80,41 übertrifft GPT-Realtime-1.5 um 18%, Sprachanrufe kosten 3,8 Yuan/Stunde

Laut Beating startete Step Cosmos im April 2026 sein End-to-End-Echtzeit-Sprachmodell Step Audio 2.5 Realtime auf der Open-Platform-API. Das Modell legt den Fokus auf natürliche Konversation mit anpassbaren Charakter-Personas und paralinguistischem Verständnis (Ton, Pausen, Seufzer).

Bei offiziellen Tests über fünf Dimensionen belegte Step Audio 2.5 Realtime in allen Kategorien den ersten Platz. Der subjektive Bewertungswert (Gespräche in der echten Nutzer-Phone-App) erreichte 80,41, im Vergleich zu 68,01 für GPT-Realtime-1.5 und 67,16 für Gemini Live. Der Voice-Q&A-Benchmark erzielte 79,80 und lag damit nahezu 1,5-mal höher als der Wert von GPT-Realtime-1.5 mit 53,20. API-Preisgestaltung: 10 Yuan pro Million Input-Tokens (2 Yuan bei Cache-Treffern), 70 Yuan pro Million Output-Tokens; durchgehend geschätzte Kosten für Echtzeit-Sprachanrufe: 3,8 Yuan pro Stunde.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare