رسالة Gate News، 17 أبريل — كشفت Google النقاب عن Gemini 3.1 Flash TTS، وهو نموذج متقدم لتحويل النص إلى كلام مع ميزات محسنة للتعبير العاطفي والتحكم، في 15 أبريل. سيتم طرح النموذج الجديد تدريجيًا عبر واجهات برمجة التطبيقات للمطورين، وVertex AI الخاص بالمؤسسات، وأدوات التعاون.
تشمل القدرات الأساسية للنموذج وسومًا صوتية تعتمد على اللغة الطبيعية لضبط السرعة والتنغيم والعاطفة بدقة، إلى جانب "Director Mode" لتحديد المشاهد وأدوار الشخصيات من أجل توليد مخرجات صوتية أكثر دقة. تُمكّن ميزة تعدد المتحدثين من توليد الحوار بشكل متزامن، ما يسمح بتدفقات محادثة أكثر طبيعية ومناسبـة للبودكاست والمحتوى الصوتي ومساعدي الذكاء الاصطناعي. يدعم النموذج أكثر من 70 لغة ولهجة، ما يعكس اللهجات والتعبيرات الإقليمية لتجارب صوتية مخصصة عالميًا.
أكدت Google على الأداء وكفاءة التكلفة، محققة نتائج مرتفعة على معايير تقييم البشر العمياء مع تقليل التكاليف الحاسوبية عبر بنية Flash—المصممة لاعتماد المؤسسات على نطاق واسع. يتضمن الصوت المُولَّد ترميزًا مائيًا SynthID لتحديد المحتوى المُولَّد بالذكاء الاصطناعي ومكافحة المعلومات المضللة.
تعكس هذه الخطوة اشتداد المنافسة في واجهات الصوت. تقوم OpenAI بدمج ميزات الصوت في الوقت الفعلي مع الذكاء الاصطناعي الحواري من أجل تفاعلات شبيهة بالبشر، بينما توسع Meta استثماراتها في شخصيات الذكاء الاصطناعي مع تجارب اجتماعية قائمة على الصوت. يلاحظ مراقبون في الصناعة أنه بينما قد يبقى مستوى عالٍ من التمثيل والعمل الإبداعي مدفوعًا بالبشر في الوقت الحالي، قد يشهد سوق الإنتاج المتكرر وعلى نطاق واسع تبنّيًا تدريجيًا للذكاء الاصطناعي في مجالات الدبلجة والإعلانات وسلاسل الكتب الصوتية.