أطلقت شركة StepFun، المختصة في مختبرات الذكاء الاصطناعي ومقرها شنغهاي، هذا الأسبوع StepAudio 2.5 Realtime، وهو نموذج صوتي فوري شامل من البداية إلى النهاية يدعم الصينية والإنجليزية. وقد تصدّر النموذج جميع اختبارات معايير الذكاء الاصطناعي الصوتية الخمسة التي جرى اختبارها في أبريل 2026، متفوقاً على GPT Realtime 1.5 من OpenAI وGemini Live من Google، وفقاً لاختبارات StepFun.
على معيار الفهم الشبه لغوي—الذي يقيس إدراك السمات الصوتية مثل العاطفة ومعدل الكلام على مقياس من 0 إلى 100—سجل StepAudio 82.18 مقابل 80.46 لـ GPT Realtime 1.5 و58.05 لـ Gemini Live. وفي اختبارات التقييم البشري، حقق StepAudio 80.41 مقارنةً بـ 68.01 لـ GPT Realtime 1.5 و67.16 لـ Gemini Live. وقد درّبت StepFun النموذج على مجموعة بيانات شخصيات بحجم مليون مع تعلّم معزز مخصص لأدوار التمثيل للحفاظ على اتساق الشخصية خلال المحادثات الطويلة.