Resemble AI lança o DramaBox, um modelo de fala controlável ao nível de diretor, na Hugging Face hoje

ON-7,58%
PROMPT-11,05%
IN19,09%

De acordo com Beating, Resemble AI lançou hoje o DramaBox, um modelo de geração de fala, na Hugging Face. O modelo traz uma controlabilidade ao nível de direcção através de uma sintaxe de prompts separada—os utilizadores inserem o diálogo entre aspas, enquanto especificam indicações de cena como suspirar, pausas ou sussurros fora das aspas. O modelo transforma essas indicações em discurso com inflexões emocionais, em vez de as ler em voz alta.

O DramaBox suporta clonagem de voz zero-shot com apenas 10 segundos de áudio de referência e permite prompts em linguagem natural para definir a idade, o sotaque e a emoção da personagem. O áudio gerado tem qualidade de estúdio em estéreo a 48 kHz. Todo o áudio gerado inclui uma marca de água invisível de Perth, resistente à compressão MP3 e à edição áudio padrão, para impedir o uso indevido para deepfakes.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário