Gate News-Meldung, 17. April — Google hat Gemini 3.1 Flash TTS, ein fortschrittliches Text-to-Speech-Modell mit verbesserten Funktionen zur emotionalen Ausdruckskraft und Steuerung, am 15. April vorgestellt. Das neue Modell wird schrittweise über Entwickler-APIs, das Enterprise-Produkt Vertex AI und Kollaborationstools ausgerollt.
Zu den Kernfähigkeiten des Modells gehören auf natürlicher Sprache basierende Audio-Tags zur Optimierung von Geschwindigkeit, Intonation und Emotion sowie ein „Director Mode“, mit dem Szenen und Rollen der Figuren festgelegt werden können, um nuanciertere Sprach-Ausgaben zu erzeugen. Eine Multi-Speaker-Funktion ermöglicht die gleichzeitige Generierung von Dialogen und schafft so natürlichere Gesprächsabläufe, die sich für Podcasts, Audioinhalte und KI-Assistenten eignen. Das Modell unterstützt über 70 Sprachen und Dialekte und berücksichtigt regionale Akzente und Ausdrucksweisen für lokalisiertes Voice-Erlebnis weltweit.
Google betonte Leistung und Kosteneffizienz und erzielte hohe Werte in Blind-Bewertungsbenchmarks durch Menschen, während die Rechenkosten durch die Flash-Architektur gesenkt wurden — konzipiert für die groß angelegte Einführung in Unternehmen. Generierte Audios enthalten SynthID-Wasserzeichen, um KI-generierte Inhalte zu identifizieren und Fehlinformationen entgegenzuwirken.
Der Schritt spiegelt einen sich verschärfenden Wettbewerb in sprachbasierten Schnittstellen wider. OpenAI kombiniert Echtzeit-Sprachfunktionen mit konversationsfähiger KI für Interaktionen, die menschlich wirken, während Meta seine Investitionen in KI-Charaktere mit stimmbasierten sozialen Erlebnissen ausweitet. Branchenbeobachter weisen darauf hin, dass zwar anspruchsvolle Schauspiel- und kreative Arbeiten vorerst weiterhin von Menschen gesteuert werden könnten, aber in wiederholbaren und groß angelegten Produktionsmärkten wie Synchronisation, Werbung und Hörbuch-Segmenten eine schrittweise KI-Adoption zu erwarten ist.