Beating, Resemble AI выпустила DramaBox, модель генерации речи, на Hugging Face сегодня. Модель отличается управляемостью на уровне режиссёра благодаря разделённому синтаксису подсказок: пользователи вводят реплики в кавычках, указывая при этом сценические ремарки вроде вздохов, пауз или шёпота вне кавычек. Модель превращает эти ремарки в эмоционально окрашенную речь, а не зачитывает их вслух.

DramaBox поддерживает zero-shot клонирование голоса всего по 10 секундам референсного аудио и позволяет задавать возраст персонажа, акцент и эмоции через подсказки на естественном языке. Выходной сигнал — аудио студийного качества в стерео с частотой 48 кГц. Всё сгенерированное аудио включает невидимый водяной знак Perth, устойчивый к MP3-сжатию, а также стандартные аудиоредакторские инструменты, чтобы предотвратить злоупотребление глубокими подделками.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-15 01:55

Sui запускает модель Sui Spheres для контролируемых сред выполнения

05-14 11:09

OpenAI 1 сентября реорганизует систему памяти ChatGPT, углубляя интеграцию с Apple Intelligence

05-14 09:51

Meta запускает Muse Spark AI с голосом, распознаванием изображений в реальном времени и инструментами для покупок 14 мая

05-13 06:11

XYO запускает AI SDK, чтобы обеспечить разработку блокчейна без опыта в Solidity, 12 мая

05-13 04:01

WeChat теперь позволяет пересылать сообщения в Yuanbao AI в один клик для мгновенного краткого изложения

Детальный анализ