Google lanza Gemini 3.1 Flash TTS: admite 70 idiomas y escenarios para directores, la voz de la IA es más natural

El responsable de relaciones con desarrolladores de IA de Google, Logan Kilpatrick, anunció el 15 de abril el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google de texto a voz. Este modelo admite 70 idiomas, control detallado a nivel de director de escenas (scene direction), por hablante y con etiquetas de audio; actualmente ya está disponible para su uso en el playground de audio de Google AI Studio y en la API de Gemini.

Cuatro funciones principales

En comparación con su predecesor, Gemini 3.1 Flash TTS presenta cuatro mejoras notables:

Director de escenas (Scene Direction): permite configurar un contexto para la voz, por ejemplo, «susurrar en una cafetería ruidosa» o «anunciar con entusiasmo una buena noticia»; el modelo ajusta el tono, la velocidad del habla y la emoción en función de la escena

Control a nivel de hablante (Speaker-Level Specificity): en diálogos con múltiples personajes, se pueden definir características de voz diferentes para cada uno

Etiquetas de audio (Audio Tags): admite insertar instrucciones de efectos de sonido en el texto, para controlar detalles como pausas y cambios de entonación

Compatibilidad con 70 idiomas: amplía significativamente la cobertura multilingüe, incluido el chino

Voces más naturales y con más expresividad

Google subraya los avances de este modelo en naturalidad de voz. Los modelos TTS tradicionales suelen ser criticados por generar una salida que «suena como a IA». Gemini 3.1 Flash TTS intenta reducir la brecha con la voz humana mediante variaciones de prosodia y expresión emocional más ricas. Kilpatrick señaló que el progreso de Gemini 2.5 a 3.1 «es muy notable».

Cómo pueden usarlo los desarrolladores

Los desarrolladores pueden usarlo de dos maneras:

Google AI Studio Audio Playground: probar y previsualizar directamente los efectos de voz en la interfaz web

API de Gemini: integrarla en aplicaciones para casos como asistentes de voz, audiolibros, generación automática de Podcast, atención al cliente multilingüe, etc.

La línea de productos de Gemini sigue expandiéndose

Flash TTS es parte de la intensa serie de lanzamientos recientes de la familia Gemini 3.1. Anteriormente, Google ya había presentado Gemini Robotics ER 1.6 (razonamiento visual para robots), Tab Tab Tab (completado de prompt de Vibe Coding) y funciones como vistas previas de diseño. Google está llevando a Gemini de un «modelo de chat» a una plataforma de IA multimodal que abarca texto, voz, visión y robots.

Este artículo sobre el lanzamiento de Gemini 3.1 Flash TTS de Google: admite 70 idiomas y director de escenas; la voz de IA es más natural apareció por primera vez en Cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Google aumenta la apuesta con una inversión de 40 mil millones de dólares en Anthropic: primero paga 10 mil millones y luego libera 30 mil millones según el desempeño, con capacidad informática de 5 GW de TPU

Alphabet 增加对 Anthropic 的投资至 40 亿美元,分两阶段:第一笔 10 亿美元现金注入、估值 3800 亿美元;剩余 30 亿美元在业绩达标后分阶段释放。Google Cloud 在五年内提供 5 GW TPU 计算资源;同期 Amazon 也宣布最高 250 亿美元投资,显示 Anthropic 的算力与资本支持同步增强。

ChainNewsAbmediaHace11m

Las OPIs de SpaceX, OpenAI y Anthropic podrían atraer más de $240 Billion, lo que potencialmente afectaría la liquidez del mercado cripto

Mensaje de Gate News, 25 de abril — Según informes del mercado, se espera que SpaceX salga a bolsa en junio con una meta de recaudación que superaría el récord de la OPI de $29 billion de Saudi Aramco, mientras que OpenAI y Anthropic planean cotizar en la segunda mitad de 2026. Se prevé que las tres empresas

GateNewshace1h

DeepSeek-V4 en versión preliminar publicado con ventana de contexto de 1M; la solución de IA de Huawei DCS brinda soporte completo

Mensaje de Gate News, 25 de abril — La versión preliminar de DeepSeek-V4 se ha lanzado oficialmente y se ha publicado como código abierto, con una ventana de contexto ampliada de 1 millón de tokens e introduciendo KV Cache con ventana deslizante mediante algoritmos de compresión para reducir la complejidad computacional de la Atención y la presión del ancho de banda de memoria.

GateNewshace1h

Regresa la escasez de GPU mientras Microsoft y Amazon ajustan el suministro; las startups de IA enfrentan un aumento del 32% en precios y colas hasta fin de año

Mensaje de Gate News, 25 de abril — Vuelve a aparecer una escasez de GPU mientras los principales proveedores de nube, incluidos Microsoft y Amazon, concentran capacidad de cómputo en equipos internos y grandes clientes como OpenAI y Anthropic, dejando que las empresas emergentes de IA más pequeñas enfrenten aumentos de precios, tiempos de espera prolongados y términos de contrato más estrictos.

GateNewshace3h

Nvidia在Blackwell基础设施上将OpenAI Codex AI代理部署至全体员工

消息快报,4月25日——据首席执行官Jensen Huang和OpenAI首席执行官Sam Altman的内部沟通内容,Nvidia已在成功试点后,将OpenAI的Codex这一由GPT-5.5驱动的AI代理面向其全体员工部署,试点约涉及10,000名员工。 Codex旨在用于

GateNewshace4h

El Departamento de Estado de EE. UU. advierte sobre la destilación del modelo de IA DeepSeek

El Departamento de Estado de EE. UU. emitió un cable el 24 de abril a las misiones diplomáticas y consulares de todo el mundo, advirtiendo a gobiernos extranjeros sobre los esfuerzos de China por copiar sistemas de IA estadounidenses mediante destilación, según Reuters. El cable

CryptoFrontierhace4h
Comentar
0/400
Sin comentarios