Google bringt Gemini 3.1 Flash TTS mit verbesserter emotionaler Ausdruckskraft und Multi-Speaker-Fähigkeiten auf den Markt

Gate News-Meldung, 17. April — Google hat Gemini 3.1 Flash TTS, ein fortschrittliches Text-to-Speech-Modell mit verbesserten Funktionen zur emotionalen Ausdruckskraft und Steuerung, am 15. April vorgestellt. Das neue Modell wird schrittweise über Entwickler-APIs, das Enterprise-Produkt Vertex AI und Kollaborationstools ausgerollt.

Zu den Kernfähigkeiten des Modells gehören auf natürlicher Sprache basierende Audio-Tags zur Optimierung von Geschwindigkeit, Intonation und Emotion sowie ein „Director Mode“, mit dem Szenen und Rollen der Figuren festgelegt werden können, um nuanciertere Sprach-Ausgaben zu erzeugen. Eine Multi-Speaker-Funktion ermöglicht die gleichzeitige Generierung von Dialogen und schafft so natürlichere Gesprächsabläufe, die sich für Podcasts, Audioinhalte und KI-Assistenten eignen. Das Modell unterstützt über 70 Sprachen und Dialekte und berücksichtigt regionale Akzente und Ausdrucksweisen für lokalisiertes Voice-Erlebnis weltweit.

Google betonte Leistung und Kosteneffizienz und erzielte hohe Werte in Blind-Bewertungsbenchmarks durch Menschen, während die Rechenkosten durch die Flash-Architektur gesenkt wurden — konzipiert für die groß angelegte Einführung in Unternehmen. Generierte Audios enthalten SynthID-Wasserzeichen, um KI-generierte Inhalte zu identifizieren und Fehlinformationen entgegenzuwirken.

Der Schritt spiegelt einen sich verschärfenden Wettbewerb in sprachbasierten Schnittstellen wider. OpenAI kombiniert Echtzeit-Sprachfunktionen mit konversationsfähiger KI für Interaktionen, die menschlich wirken, während Meta seine Investitionen in KI-Charaktere mit stimmbasierten sozialen Erlebnissen ausweitet. Branchenbeobachter weisen darauf hin, dass zwar anspruchsvolle Schauspiel- und kreative Arbeiten vorerst weiterhin von Menschen gesteuert werden könnten, aber in wiederholbaren und groß angelegten Produktionsmärkten wie Synchronisation, Werbung und Hörbuch-Segmenten eine schrittweise KI-Adoption zu erwarten ist.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare