xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом Датчі Beating, запущено два окремі API для аудіо xAI: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стеку, що підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих точок доступу, що дозволяє розробникам безпосередньо підключатися до голосових агентів, у реальному часі транскрибувати, створювати інструменти для людей з обмеженими можливостями та подкасти. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (діаризація), розпізнавання по кількох каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Підтримка понад 25 мов, з можливістю безшовного перемикання у діалогах. xAI також оприлюднила порівняльні показники помилок у словах (WER, чим нижчий, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у розпізнаванні телефонних розмов ще більш значуща, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У популярних сценаріях, таких як конференції, відеоподкасти та телефонні дзвінки, Grok також має невелике перевагу. Ці цифри були оприлюднені самою xAI під час внутрішнього тестування, без стороннього повторного тестування. Щодо цін, пакетна обробка STT коштує 0.10 долара США за годину, потокова — 0.20 долара за годину; TTS — 4.20 долара за мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмікою, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats).
XAI0,66%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-28f37882
· 1год тому
Одна й та сама технологічна платформа поєднала Grok Voice, автомобільний зв'язок, Starlink, ця хвиля інтеграції ресурсів xAI має дещо особливе
Переглянути оригіналвідповісти на0
Don'tMessWithSlippage.
· 1год тому
Grok цей стек аудіо нарешті відкритий для публіки, власники Tesla неймовірно раді
Переглянути оригіналвідповісти на0
ReflectiveChainShadow
· 1год тому
WebSocket реальний час потік 0.2 долара/година, чи зможе працювати сценарій трансляції субтитрів?
Переглянути оригіналвідповісти на0
MossyLedger
· 1год тому
WER порівняння без стороннього повторного тестування, спочатку нехай кулі полетять трохи.
Переглянути оригіналвідповісти на0
MistBlueLily
· 1год тому
Функція нормалізації оберненого тексту дуже корисна для голосових помічників, нарешті не потрібно писати правила самостійно
Переглянути оригіналвідповісти на0
NodeUnderTheAurora
· 1год тому
4.2 долара/мільйон символів TTS — дешевше чи дорожче за ElevenLabs? Хтось рахував?
Переглянути оригіналвідповісти на0
  • Закріплено