StepFun StepAudio 2.5 in Echtzeit führt fünf Voice-AI-Benchmarks an und schlägt GPT Realtime 1.5

Das in Shanghai ansässige KI-Labor StepFun hat diese Woche StepAudio 2,5 Realtime veröffentlicht, ein End-to-End-Echtzeit-Sprachmodell, das Chinesisch und Englisch unterstützt. Das Modell belegte im April 2026 in allen fünf getesteten Voice-AI-Benchmarks den ersten Platz und schnitt dabei besser ab als OpenAI’s GPT Realtime 1,5 und Googles Gemini Live, wie aus StepFuns Tests hervorgeht.

Beim Benchmark für paralinguistisches Verstehen – der die Wahrnehmung akustischer Merkmale wie Emotion und Sprechtempo auf einer Skala von 0–100 misst – erzielte StepAudio 82,18 gegenüber 80,46 für GPT Realtime 1,5 und 58,05 für Gemini Live. In menschlichen Bewertungstests erreichte StepAudio 80,41 im Vergleich zu 68,01 für GPT Realtime 1,5 und 67,16 für Gemini Live. StepFun trainierte das Modell auf einem Persona-Datensatz im Millionenmaßstab mit rollenspiel-spezifischem Reinforcement Learning, um die Konsistenz der Figur während längerer Gespräche aufrechtzuerhalten.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare