Microsoft ouvre la famille d'IA de reconnaissance vocale de pointe VibeVoice : traitement unique de dialogues multi-intervenants de 90 minutes, 27K étoiles rapidement sur GitHub

MarsBitNews · 2026-03-30T07:24:07+00:00

Microsoft a lancé le modèle open source d'IA vocale VibeVoice, prenant en charge la reconnaissance automatique de la parole et la synthèse vocale, avec des capacités de traitement de longues pistes audio et de génération de dialogues multi-interprètes. Ce projet vise à stimuler l'innovation dans le domaine de la synthèse vocale, le modèle supportant le déploiement local sans frais cloud. VibeVoice comprend trois modèles principaux, respectivement pour la transcription de longues voix, la génération de voix multi-interprètes et la synthèse vocale en temps réel, améliorant les performances de l'IA vocale traditionnelle.

MarsBitNews

2026-03-30 07:24:07

Création du résumé en cours

null

Microsoft a récemment open-sourcé une famille de modèles d’IA vocale de pointe nommée VibeVoice, qui couvre plusieurs capacités telles que la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS). Ce projet a rapidement suscité l’attention de la communauté des développeurs grâce à sa puissante capacité de traitement de longs enregistrements audio, à la génération de dialogues naturels avec plusieurs locuteurs et à ses caractéristiques de faible latence en temps réel, et a déjà récolté environ 27K étoiles sur GitHub.

En tant que cadre de recherche open source, VibeVoice utilise la licence MIT, supporte le déploiement local sans frais d’abonnement dans le cloud, et vise à promouvoir la collaboration et l’innovation dans le domaine de la synthèse vocale. La famille de modèles comprend principalement trois membres clés, chacun ayant un accent particulier, qui résolvent ensemble les problèmes de l’IA vocale traditionnelle en matière de traitement de longues séquences, de cohérence des locuteurs et de fluidité naturelle.

VibeVoice-ASR-7B : Un outil de transcription vocale structuré de 60 minutes

VibeVoice-ASR-7B est un modèle unifié de transcription vocale qui peut traiter des fichiers audio allant jusqu’à 60 minutes en une seule fois, produisant directement des résultats de transcription structurée. La sortie comprend non seulement “qui parle” (identification des locuteurs), “quand parle” (horodatage précis), mais aussi “ce qui a été dit” (contenu détaillé), et prend en charge une fonction de mots-clés personnalisés, ce qui peut améliorer de manière significative la précision de reconnaissance des noms propres ou des termes techniques. Ce modèle prend en charge plus de 50 langues, et est adapté à des scènes complexes telles que les comptes rendus de longues réunions ou la transcription de podcasts.

Les développeurs de la communauté ont déjà créé des outils pratiques basés sur ce modèle, comme un logiciel de saisie vocale nommé Vibing, prenant en charge les plateformes macOS et Windows. Les retours des utilisateurs montrent que sa vitesse de reconnaissance et son taux de précision sont satisfaisants, ce qui peut considérablement améliorer l’efficacité de la saisie vocale quotidienne.

VibeVoice-TTS-1.5B : Génération de voix expressive à plusieurs locuteurs pendant 90 minutes

VibeVoice-TTS-1.5B est le modèle central axé sur la synthèse vocale, capable de produire jusqu’à 90 minutes d’audio continu en une seule génération, prenant en charge jusqu’à 4 locuteurs différents pour simuler des dialogues naturels. La voix générée par le modèle est expressive, naturelle et fluide, capable de simuler de véritables pauses, accents et inflexions émotionnelles, ce qui la rend particulièrement adaptée à la production de podcasts, de narrations audio longues, de livres audio ou de contenus de dialogue multi-personnages.

Comparé à de nombreux modèles TTS traditionnels ne supportant que 1 à 2 locuteurs, VibeVoice-TTS a réalisé une percée significative en matière de formes longues et de cohérence entre plusieurs locuteurs. Sa base utilise un segmentateur de discours continu (segmentateurs acoustiques et sémantiques) combiné à un design à faible fréquence d’images (7,5 Hz), améliorant considérablement l’efficacité de traitement des longues séquences.

VibeVoice-Realtime-0.5B : TTS en temps réel avec un délai d’environ 300 ms

VibeVoice-Realtime-0.5B se concentre sur les scénarios en temps réel, prenant en charge l’entrée de texte en continu, avec un délai de sortie audio d’environ 300 ms, tout en générant environ 10 minutes d’audio long. Ce modèle est particulièrement adapté aux applications interactives nécessitant une réponse immédiate, telles que les assistants vocaux en temps réel ou les scénarios de doublage en direct.

De plus, le projet a introduit un support expérimental pour les locuteurs, y compris des voix multilingues et diverses variantes de styles d’anglais, offrant plus d’espace de personnalisation aux développeurs.

Avis de AIbase : L’open source de Microsoft VibeVoice a non seulement abaissé le seuil d’utilisation de l’IA vocale haute performance, mais a également fourni une solution complète pour le déploiement local. Le projet a été brièvement retiré en raison de risques potentiels d’abus, puis a été remis en ligne grâce à des mécanismes de sécurité tels que l’insertion de filigranes audio et des avertissements audibles, reflétant le principe de développement responsable de l’IA. Actuellement, les développeurs peuvent obtenir les poids du modèle sur le dépôt GitHub et Hugging Face, et les tester rapidement via des plateformes comme Colab.

Avec la contribution continue de la communauté open source (comme le fork optimisé pour Apple Silicon), VibeVoice a le potentiel d’accélérer son déploiement dans des domaines tels que la création de contenu, les outils d’accessibilité et les interactions vocales. Les développeurs intéressés peuvent visiter la page officielle du projet Microsoft pour explorer davantage.

Adresse du projet :

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.