Медійні новини повідомляють, що xAI запустила дві окремі аудіо API: Grok STT та Grok TTS, що походять з однієї аудіо-стеку, підтримують Grok Voice, автомобільну систему Tesla та обслуговування Starlink. STT пропонує пакетний транскрипт через REST та потокову обробку в реальному часі через WebSocket, з часовими мітками на рівні слова, розділенням мовців, багатоканальним режимом та нормалізацією зворотного тексту, підтримує понад 25 мов; TTS підтримує внутрішні теги для емоцій та ритму. Також опубліковано порівняння WER, де Grok лідирує у багатьох сценаріях, але третя сторона ще не проводила повторне тестування. Ціни: пакетний STT — 0,10 долара США за годину, потоковий — 0,20 долара США за годину, TTS — 4,20 долара за мільйон символів.

MeNews

2026-05-27 02:47:48

Генерація анотацій у процесі

ME News Новини, 18 квітня (UTC+8), згідно з моніторингом Дангча Beating, xAI запустила два окремі API для аудіо: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стеку, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, реального часу транскрипції, інструментів для людей з обмеженими можливостями та подкастів. STT пропонує два режими. REST API використовується для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (діаризація), розпізнавання по кількох каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Мови підтримують понад 25, і можна безперервно перемикатися між ними у діалогах. xAI також опублікувала порівняльні дані щодо рівня помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У популярних сценаріях, таких як конференції, відеоподкасти та телефонні дзвінки, Grok також має невелике перевагу. Ці дані були опубліковані xAI на основі власних тестів, без сторонньої перевірки. Щодо цін, то для пакетної обробки STT — 0.10 долара США за годину, для потокової — 0.20 долара за годину; TTS коштує 4.20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмікою, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

9 лайків

Нагородити
9
6
Репост
Поділіться

Прокоментувати

Додати коментар

GovernanceVotingTug-Of-WarKing

· 2год тому

25+ мовних покриттів цілком достатньо, але якість малих мов викликає сумніви — доведеться спробувати, щоб переконатися