Laut Beating hat das KI-Labor Kaldi-Team von Xiaomi OmniVoice open-sourced, ein Zero-Shot-Voice-Cloning-TTS-Modell, das 646 Sprachen unterstützt. Das Modell klont die Stimmcharakteristiken aus nur wenigen Sekunden Referenz-Audio und funktioniert über Sprachen hinweg—eine einzige Stimme kann Sprache auf Mandarin, Japanisch, Koreanisch und weiteren Sprachen synthetisieren. Sämtlicher Code, Gewichte und Trainingsdaten wurden unter der Apache-2.0-Lizenz Open Source veröffentlicht.
OmniVoice verwendet eine vereinfachte Architektur mit einem einzelnen bidirektionalen Transformer, der Text direkt auf diskrete akustische Tokens abbildet und damit in PyTorch eine 40-mal schnellere Inferenz als Echtzeit erreicht. OmniVoice wurde mit 580.000 Stunden Audio aus 50 Open-Source-Datensätzen trainiert und übertraf kommerzielle Systeme hinsichtlich Sprachähnlichkeit und Verständlichkeit in 24 getesteten Sprachen sowie glich menschliche Aufnahmen in 102 Sprachen an oder übertraf sie.