Xiaomi veröffentlicht OmniVoice Open-Source: Zero-Shot-Voice-Cloning-Modell mit Unterstützung für 646 Sprachen

Laut Beating hat das KI-Labor Kaldi-Team von Xiaomi OmniVoice open-sourced, ein Zero-Shot-Voice-Cloning-TTS-Modell, das 646 Sprachen unterstützt. Das Modell klont die Stimmcharakteristiken aus nur wenigen Sekunden Referenz-Audio und funktioniert über Sprachen hinweg—eine einzige Stimme kann Sprache auf Mandarin, Japanisch, Koreanisch und weiteren Sprachen synthetisieren. Sämtlicher Code, Gewichte und Trainingsdaten wurden unter der Apache-2.0-Lizenz Open Source veröffentlicht.

OmniVoice verwendet eine vereinfachte Architektur mit einem einzelnen bidirektionalen Transformer, der Text direkt auf diskrete akustische Tokens abbildet und damit in PyTorch eine 40-mal schnellere Inferenz als Echtzeit erreicht. OmniVoice wurde mit 580.000 Stunden Audio aus 50 Open-Source-Datensätzen trainiert und übertraf kommerzielle Systeme hinsichtlich Sprachähnlichkeit und Verständlichkeit in 24 getesteten Sprachen sowie glich menschliche Aufnahmen in 102 Sprachen an oder übertraf sie.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare