Google lance Gemini 3.1 Flash TTS avec une expression émotionnelle améliorée et des capacités multi-intervenants

Message de Gate News, 17 avril — Google a dévoilé Gemini 3.1 Flash TTS, un modèle avancé de synthèse vocale doté de fonctionnalités d’expression émotionnelle et de contrôle améliorées, le 15 avril. Le nouveau modèle sera déployé progressivement via des API développeur, Vertex AI à destination des entreprises, et des outils de collaboration.

Les capacités clés du modèle incluent des balises audio basées sur le langage naturel pour affiner la vitesse, l’intonation et l’émotion, ainsi qu’un « Director Mode » permettant de spécifier des scènes et les rôles des personnages afin de générer des sorties vocales plus nuancées. Une fonctionnalité multi-intervenants permet de générer un dialogue simultanément, offrant des flux de conversation plus naturels adaptés aux podcasts, aux contenus audio et aux assistants IA. Le modèle prend en charge plus de 70 langues et dialectes, reflétant les accents et les expressions régionales pour des expériences vocales localisées à l’échelle mondiale.

Google a mis l’accent sur les performances et l’efficacité des coûts, obtenant de hauts scores sur des références d’évaluation humaine à l’aveugle tout en réduisant les coûts de calcul grâce à son architecture Flash — conçue pour une adoption à grande échelle en entreprise. L’audio généré inclut le marquage filigrane SynthID pour identifier les contenus générés par IA et lutter contre la désinformation.

Ce mouvement reflète une concurrence de plus en plus forte dans les interfaces vocales. OpenAI combine des fonctionnalités vocales en temps réel avec une IA conversationnelle pour des interactions plus proches de l’humain, tandis que Meta élargit ses investissements dans des personnages IA avec des expériences sociales basées sur la voix. Des observateurs du secteur notent que, bien que le jeu d’acteur et le travail créatif de haut niveau puissent encore rester pilotés par des humains pour le moment, les marchés de production répétitifs et à grande échelle pourraient voir une adoption progressive de l’IA dans le doublage, la publicité et les secteurs des livres audio.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

La Chine renforce le cadre législatif pour l’IA, l’économie numérique et la blockchain

La Chine prévoit de renforcer son système juridique en matière de réseau pour répondre aux besoins du développement d’Internet, en mettant l’accent sur la législation relative à l’IA, à l’économie numérique et à d’autres secteurs technologiques. D’ici décembre 2025, plus de 180 lois sont attendues, bien que les réglementations actuelles accusent encore un retard par rapport aux attentes du public.

GateNewsIl y a 2m

Intchains Group révèle 8 040 ETH mis en jeu et accélère la transformation de ses opérations alimentées par l’IA

Intchains Group a annoncé un jalonnement cumulatif de 8 040 ETH, avec une stratégie incluant la plateforme FalconX et son propre Goldshell Stake. La société renforce également ses opérations grâce à l’automatisation par IA afin d’améliorer l’efficacité et la prise de décision.

GateNewsIl y a 32m

Adata, Jay Chou gagnent-ils gros ? Une société de gestion de GD rencontre en privé la famille royale de Dubaï pour discuter d’une introduction en bourse, d’IA et de robots

La société sud-coréenne de divertissement et de technologie Galaxy Corporation s’est récemment lancée sur le marché du Moyen-Orient, en créant l’entité « Galaxy ME » à Dubaï, et en rencontrant des membres de la famille royale des Émirats arabes unis afin d’explorer l’intégration de l’IA et du contenu. L’entreprise a déjà sélectionné un courtier pour mener son introduction en bourse (IPO) ; l’an dernier, son chiffre d’affaires a atteint 3000 milliards de wons coréens, et elle a attiré des investisseurs tels que Jay Chou et Adata. Cette stratégie vise à stimuler le développement de l’écosystème du divertissement au Moyen-Orient, tout en soulignant l’importance de sa stratégie de mondialisation.

ChainNewsAbmediaIl y a 2h

L’équipe chinoise EvoMap s’en prend avec virulence à la copie de Hermes Agent, qui est devenu viral : il existe une forte similarité entre les systèmes d’auto-évolution

L’équipe chinoise EvoMap accuse l’agent Hermes de Nous Research d’avoir copié sa structure Evolver/GEP, estimant que les deux présentent une forte similarité sur plusieurs modules clés. EvoMap indique que la conception de Hermes ne cite ni ne remercie son contenu précédemment publié, et que la controverse a suscité un large intérêt dans la communauté ; certains internautes chinois soutiennent EvoMap et critiquent le comportement de plagiat de Hermes. Bien que l’équipe de Nous n’ait pas encore réfuté les accusations point par point, l’affaire s’est rapidement propagée dans l’opinion publique liée à l’IA.

ChainNewsAbmediaIl y a 2h

Les investisseurs précoces d’OpenAI l’apprécient ! La nouvelle startup de technologies cerveau-ordinateur Sabi livrera au plus vite d’ici la fin de l’année le bonnet « écrire des mots en pensant »

La startup de la Silicon Valley, Sabi, annonce développer une interface cerveau-machine portable qui ne nécessite aucune chirurgie invasive. Les utilisateurs peuvent simplement « penser » pour saisir du texte sur l’écran, avec une sortie prévue d’ici la fin de 2026. L’appareil sera équipé de jusqu’à 100 000 microcapteurs, afin de contribuer à interpréter avec précision l’activité cérébrale, et Sabi souligne également la protection de la confidentialité des données.

ChainNewsAbmediaIl y a 2h

Des données révèlent que « Claude devient moins intelligent » n’est pas une légende urbaine : le modèle d’IA est instable et constitue un risque pour l’entreprise

L’article examine le phénomène selon lequel les LLM (grands modèles de langage) présentent une performance instable dans les applications en entreprise d’IA, qu’il qualifie de « baisse des capacités cognitives », et fournit des exemples pour illustrer l’impact réel sur les processus de travail des entreprises. Les données montrent que la plupart des modèles grand public sont en état de dégradation, ce qui affecte la productivité et la stabilité des entreprises. Celles-ci doivent commencer à accorder une attention accrue à la stabilité des modèles en tant que nouvelle norme, sinon elles s’exposeront à des risques pour l’infrastructure.

ChainNewsAbmediaIl y a 2h
Commentaire
0/400
Aucun commentaire