XAI Grok lança vozes personalizadas: clonagem de 2 minutos, verificação de identidade em duas fases

A 2 de Maio, o xAI lançou no seu blogue oficial a funcionalidade Grok Custom Voices, permitindo que os utilizadores gravem cerca de 1 minuto de voz natural no painel de controlo do xAI. O sistema conclui o processamento em 2 minutos, produzindo um modelo de voz personalizado utilizável para TTS e para a Voice Agent API. Em paralelo, foi também lançado o modelo Grok 4.3 e a interface Voice Library, que agrega todos os recursos de voz. O Custom Voices foi ainda concebido com um mecanismo de autenticação de identidade em duas fases, para impedir a clonagem de vozes de terceiros.

Funcionalidade: gravação de 1 minuto, geração em 2 minutos, integração de TTS e Voice Agent API

Os utilizadores gravam cerca de 1 minuto de voz natural no painel de controlo do xAI e, em seguida, o processo em segundo plano conclui, por esta ordem: (1) autenticação de identidade, (2) processamento de voz e (3) produção do modelo. No total, em menos de 2 minutos, é possível obter um modelo de voz utilizável. O Custom Voices herda todas as capacidades do TTS, incluindo speech tags (etiquetas de voz), saída multilingue e streaming via REST e WebSocket; pode ser usado diretamente em conjunto com o endpoint de TTS do xAI ou com a Voice Agent API para conversas em tempo real com agents.

A Voice Library lançada em simultâneo é a interface no painel de controlo do xAI para gerir de forma unificada os recursos de voz, permitindo navegar, pré-visualizar e gerir as vozes personalizadas e as vozes pré-criadas pelos utilizadores, evitando a dispersão por múltiplas interfaces. As bibliotecas de vozes pré-criadas oferecem mais de 80 tipos de vozes e suportam 28 línguas.

Autenticação de identidade em duas fases: para impedir a clonagem de vozes de terceiros

Antes da geração de voz, o Custom Voices define duas barreiras de autenticação: primeiro, o utilizador lê uma frase de verificação e o sistema transcreve imediatamente essa parte do áudio; segundo, o sistema calcula, de forma separada, o speaker embedding (vetor de características do falante) a partir da frase de verificação e da gravação completa, e compara se ambos pertencem à mesma pessoa. Apenas após a passagem das duas fases é que o processo avança para a produção do modelo de voz.

O xAI declara de forma explícita que os utilizadores não conseguem clonar a voz com ficheiros de gravação existentes, nem clonar a voz de outras pessoas. Esta conceção elimina o cenário de uso de “obter gravações de um discurso público de outra pessoa e copiá-las diretamente”, restringindo o âmbito da clonagem de voz ao único ponto de entrada de “gravação imediata feita pelo próprio utilizador”. Para observadores atentos ao tema do abuso da geração de voz por IA (por exemplo, burlas telefónicas e narração com voz não autorizada), este mecanismo constitui uma resposta concreta do xAI às preocupações com falsificação.

Observação posterior: lançamento em simultâneo com Grok 4.3, expansão do ritmo na Voice Library

O Custom Voices e o modelo Grok 4.3 foram lançados no mesmo dia e o xAI atou “upgrade do modelo + completação da linha de ferramentas de voz” ao mesmo ciclo de anúncio. O próximo ponto a observar é o ritmo de expansão da biblioteca de vozes pré-criadas na Voice Library, passando de 80 tipos para mais, e se o mapa de 28 línguas conseguirá abranger ainda mais línguas minoritárias, como o chinês tradicional; outro ponto a observar é a divulgação de casos concretos de adoção da Voice Agent API, especialmente exemplos de integração em cenários como automação de atendimento ao cliente, gravação de podcast e serviços ao cliente multilingues.

Este artigo xAI Grok lança Custom Voices: clonagem em 2 minutos, autenticação de identidade em duas fases aparece pela primeira vez em 鏈新聞 ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário