Das in Shanghai ansässige KI-Labor StepFun hat diese Woche StepAudio 2,5 Realtime veröffentlicht, ein End-to-End-Echtzeit-Sprachmodell, das Chinesisch und Englisch unterstützt. Das Modell belegte im April 2026 in allen fünf getesteten Voice-AI-Benchmarks den ersten Platz und schnitt dabei besser ab als OpenAI’s GPT Realtime 1,5 und Googles Gemini Live, wie aus StepFuns Tests hervorgeht.
Beim Benchmark für paralinguistisches Verstehen – der die Wahrnehmung akustischer Merkmale wie Emotion und Sprechtempo auf einer Skala von 0–100 misst – erzielte StepAudio 82,18 gegenüber 80,46 für GPT Realtime 1,5 und 58,05 für Gemini Live. In menschlichen Bewertungstests erreichte StepAudio 80,41 im Vergleich zu 68,01 für GPT Realtime 1,5 und 67,16 für Gemini Live. StepFun trainierte das Modell auf einem Persona-Datensatz im Millionenmaßstab mit rollenspiel-spezifischem Reinforcement Learning, um die Konsistenz der Figur während längerer Gespräche aufrechtzuerhalten.