A Google lança o Gemini 3.1 Flash TTS com expressão emocional melhorada e capacidades de múltiplos locutores

Mensagem da Gate News, 17 de abril — A Google revelou o Gemini 3.1 Flash TTS, um modelo avançado de texto-para-voz com funcionalidades de expressão emocional e controlo melhoradas, a 15 de abril. O novo modelo será lançado progressivamente através de APIs para programadores, do Vertex AI empresarial e de ferramentas de colaboração.

As principais capacidades do modelo incluem etiquetas de áudio baseadas em linguagem natural para afinar a velocidade, a entoação e a emoção, além de um "Director Mode" para especificar cenas e papéis de personagens e gerar saídas vocais mais subtis. Uma funcionalidade de múltiplos locutores permite a geração simultânea de diálogos, possibilitando fluxos de conversa mais naturais adequados para podcasts, conteúdos áudio e assistentes de IA. O modelo suporta mais de 70 línguas e dialetos, refletindo acentos e expressões regionais para experiências de voz localizadas em todo o mundo.

A Google sublinhou o desempenho e a eficiência de custos, obtendo pontuações elevadas em benchmarks de avaliação humana às cegas, ao mesmo tempo que reduz os custos computacionais com a sua arquitetura Flash — concebida para adoção empresarial em grande escala. O áudio gerado inclui marcações de watermark SynthID para identificar conteúdos gerados por IA e combater a desinformação.

A medida reflete a intensificação da concorrência em interfaces de voz. A OpenAI está a combinar funcionalidades de voz em tempo real com IA conversacional para interações mais semelhantes às humanas, enquanto a Meta está a alargar investimentos em personagens de IA com experiências sociais baseadas em voz. Observadores da indústria referem que, embora a atuação de alto nível e o trabalho criativo possam continuar, por agora, a ser impulsionados por humanos, os mercados de produção repetitiva e em grande escala poderão assistir a uma adoção gradual da IA na dobragem, na publicidade e nos setores de audiolivros.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário