Le laboratoire d’IA basé à Shanghai StepFun a publié cette semaine StepAudio 2.5 Realtime, un modèle vocal temps réel de bout en bout prenant en charge le chinois et l’anglais. Le modèle a dominé les cinq benchmarks d’IA vocale testés en avril 2026, dépassant GPT Realtime 1.5 d’OpenAI et Gemini Live de Google, d’après les tests de StepFun.
Sur le benchmark de compréhension paralinguistique — mesurant la perception des caractéristiques acoustiques comme l’émotion et le débit de parole sur une échelle de 0 à 100 — StepAudio a obtenu 82,18 contre 80,46 pour GPT Realtime 1.5 et 58,05 pour Gemini Live. Lors des tests d’évaluation humaine, StepAudio a atteint 80,41 contre 68,01 pour GPT Realtime 1.5 et 67,16 pour Gemini Live. StepFun a entraîné le modèle sur un jeu de données de persona à l’échelle du million, avec un apprentissage par renforcement spécifique au roleplay afin de maintenir la cohérence du personnage pendant des conversations prolongées.