xAI открывает API для аудио Grok STT и TTS, общий процент ошибок в распознавании речи снижен до 6,9%
МЕ Новости сообщают, что xAI выпустила два независимых аудио API: Grok STT и Grok TTS, основанные на одной аудио платформе, поддерживающие Grok Voice, автомобильную систему Tesla и службу поддержки Starlink. STT предоставляет REST-пакетную транскрипцию и потоковую передачу через WebSocket, с временными метками на уровне слов, разделением говорящих, многоканальностью и обратной нормализацией текста, охватывая более 25 языков; TTS поддерживает встроенные теги для эмоций и ритма. Также опубликовано сравнение WER, где Grok лидирует в различных сценариях, третьи стороны пока не проводили повторные тесты. Цены: пакетная обработка STT — 0,10 доллара США за час, потоковая — 0,20 доллара США за час, TTS — 4,20 доллара за миллион символов.