XAI Grok führt benutzerdefinierte Stimmen ein: 2 Minuten zum Klonen, zweistufige Identitätsprüfung

ChainNewsAbmedia

xAI führte am 2. Mai auf seinem offiziellen Blog die Funktion Grok Custom Voices ein. Nutzer müssen lediglich rund 1 Minute natürliche Sprache im xAI-Frontend aufnehmen; das System ist in 2 Minuten verarbeitet und liefert ein maßgeschneidertes Sound-Modell, das für TTS und die Voice Agent API nutzbar ist. Zeitgleich wurde auch das Grok-4.3-Modell veröffentlicht sowie die Voice-Library-Ansicht, die sämtliche Sound-Ressourcen bündelt. Custom Voices ist außerdem mit einem zweistufigen Identitäts-Check-Mechanismus ausgestattet, um zu verhindern, dass fremde Stimmen geklont werden.

Funktion: 1 Minute Aufnahme, 2 Minuten Generierung, Integration von TTS und Voice Agent API

Nutzer nehmen im xAI-Frontend rund 1 Minute natürliche Sprache auf. Die Backend-Prozesse werden der Reihe nach abgeschlossen: (1) Identitätsprüfung, (2) Sprachverarbeitung, (3) Modellausgabe. Innerhalb von insgesamt 2 Minuten erhalten Nutzer ein einsatzfähiges Sound-Modell. Custom Voices übernimmt alle TTS-Fähigkeiten, einschließlich speech tags (Sprachkennzeichnungen), mehrsprachiger Ausgabe sowie REST- und WebSocket-Streaming; es kann direkt mit den xAI-TTS-Endpunkten oder der Voice Agent API für Echtzeit-Dialog-Agents kombiniert werden.

Die zeitgleich eingeführte Voice Library ist eine einheitliche Verwaltungsoberfläche für Sound-Ressourcen im xAI-Frontend. Sie ermöglicht das Durchsuchen, Vorabansichten und Verwalten sämtlicher selbst erstellter sowie vorab bereitgestellter Stimmen, wodurch die Nutzung nicht über mehrere unterschiedliche Interfaces verteilt wird. Die vorab bereitgestellte Voice-Library bietet über 80 Stimmen und unterstützt 28 Sprachen.

Zweistufige Identitätsprüfung: verhindert das Klonen fremder Stimmen

Custom Voices setzt vor der Sprachgenerierung zwei Identitätsprüfungen: In der ersten Stufe liest der Nutzer einen Abschnitt eines Verifizierungssatzes vor; das System transkribiert diese Passage sofort. In der zweiten Stufe berechnet das System aus dem Verifizierungssatz und der vollständigen Aufnahme jeweils speaker embedding (Merkmalsvektoren des Sprechers) und vergleicht, ob beide zu derselben Person gehören. Nur wenn beide Stufen bestanden sind, wird der Prozess zur Modellausgabe der Stimme gestartet.

xAI stellt klar: Nutzer können keine Stimme mit bestehenden Audiodateien klonen und auch keine fremden Stimmen klonen. Diese Gestaltung schließt die Nutzungsszenarien aus, in denen man „Aufnahmen öffentlicher Auftritte anderer direkt kopiert“, und beschränkt den Klon-Einsatzbereich auf genau eine Eingangsquelle: die sofortige eigene Aufnahme durch den Nutzer. Für Beobachter, die sich mit dem Missbrauch von KI-Spracherzeugung befassen (z. B. Telefonbetrug, nicht autorisierte Synchronisation), ist dieses Mechanismus-Design die konkrete Antwort von xAI auf das Thema Deepfakes.

Weitere Beobachtung: Mit Grok 4.3 zeitgleich eingeführt, Voice Library wird im Takt erweitert

Custom Voices und das Grok-4.3-Modell erscheinen am selben Tag; xAI bindet „ein Modell-Upgrade + die Vervollständigung der Sprach-Tools“ in dieselbe Veröffentlichungswelle ein. Der nächste Beobachtungspunkt ist der Takt, mit dem die vorab bereitgestellte Voice-Library von 80 Stimmen nach oben erweitert wird, sowie ob die Abdeckung von 28 Sprachen in Zukunft weiter auch um die traditionellen chinesischen Schriftsysteme und andere kleinere Sprachgruppen ergänzt werden kann. Ein weiterer Beobachtungspunkt sind veröffentlichte konkrete Anwendungsfälle der Voice Agent API, insbesondere Integrationsbeispiele für Szenarien wie Kundenservice-Automatisierung, Podcast-Aufzeichnungen und mehrsprachigen Kundendienst.

Der Artikel „xAI Grok bringt Custom Voices: 2 Minuten Klonen, zweistufige Identitätsprüfung“ erschien zuerst bei 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare