El responsable de relaciones con desarrolladores de IA de Google, Logan Kilpatrick, anunció el 15 de abril el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google de texto a voz. Este modelo admite 70 idiomas, control detallado a nivel de director de escenas (scene direction), por hablante y con etiquetas de audio; actualmente ya está disponible para su uso en el playground de audio de Google AI Studio y en la API de Gemini.
Cuatro funciones principales
En comparación con su predecesor, Gemini 3.1 Flash TTS presenta cuatro mejoras notables:
Director de escenas (Scene Direction): permite configurar un contexto para la voz, por ejemplo, «susurrar en una cafetería ruidosa» o «anunciar con entusiasmo una buena noticia»; el modelo ajusta el tono, la velocidad del habla y la emoción en función de la escena
Control a nivel de hablante (Speaker-Level Specificity): en diálogos con múltiples personajes, se pueden definir características de voz diferentes para cada uno
Etiquetas de audio (Audio Tags): admite insertar instrucciones de efectos de sonido en el texto, para controlar detalles como pausas y cambios de entonación
Compatibilidad con 70 idiomas: amplía significativamente la cobertura multilingüe, incluido el chino
Voces más naturales y con más expresividad
Google subraya los avances de este modelo en naturalidad de voz. Los modelos TTS tradicionales suelen ser criticados por generar una salida que «suena como a IA». Gemini 3.1 Flash TTS intenta reducir la brecha con la voz humana mediante variaciones de prosodia y expresión emocional más ricas. Kilpatrick señaló que el progreso de Gemini 2.5 a 3.1 «es muy notable».
Cómo pueden usarlo los desarrolladores
Los desarrolladores pueden usarlo de dos maneras:
Google AI Studio Audio Playground: probar y previsualizar directamente los efectos de voz en la interfaz web
API de Gemini: integrarla en aplicaciones para casos como asistentes de voz, audiolibros, generación automática de Podcast, atención al cliente multilingüe, etc.
La línea de productos de Gemini sigue expandiéndose
Flash TTS es parte de la intensa serie de lanzamientos recientes de la familia Gemini 3.1. Anteriormente, Google ya había presentado Gemini Robotics ER 1.6 (razonamiento visual para robots), Tab Tab Tab (completado de prompt de Vibe Coding) y funciones como vistas previas de diseño. Google está llevando a Gemini de un «modelo de chat» a una plataforma de IA multimodal que abarca texto, voz, visión y robots.
Este artículo sobre el lanzamiento de Gemini 3.1 Flash TTS de Google: admite 70 idiomas y director de escenas; la voz de IA es más natural apareció por primera vez en Cadena de noticias ABMedia.
Artículos relacionados
DeepSeek-V4 en versión preliminar publicado con ventana de contexto de 1M; la solución de IA de Huawei DCS brinda soporte completo
Regresa la escasez de GPU mientras Microsoft y Amazon ajustan el suministro; las startups de IA enfrentan un aumento del 32% en precios y colas hasta fin de año
Nvidia在Blackwell基础设施上将OpenAI Codex AI代理部署至全体员工
El Departamento de Estado de EE. UU. advierte sobre la destilación del modelo de IA DeepSeek
La startup de IA para la salud del profesor de Stanford busca $100M con una valoración de $1B
La startup de codificación con IA Cognition conversa sobre una ronda de financiación con valoración de $25B