Together AI Запускає платформу Voice Agent з латентністю менше 700ms

Лоренс Дженгар

13 березня 2026, 01:57

Разом AI дебютує єдину інфраструктуру голосового агента з інтеграціями Deepgram і Cartesia, орієнтовану на корпоративні розгортання з кінцевою затримкою менше 700 мс.

Разом AI запустила єдину платформу голосового агента, яка тримає обробку speech-to-text, мовних моделей і text-to-speech на одному кластері інфраструктури. Стартуп з AI-хмари вартістю 3,3 мільярда доларів стверджує, що ця система забезпечує кінцеву затримку менше 700 мс — достатньо швидку для природної розмови.

Платформа інтегрується нативно з Deepgram для транскрипції та Cartesia для синтезу голосу, обидва працюють на спільних серверах Together, а не передають аудіо між кількома хмарними провайдерами.

Чому важливо розміщення поруч для голосу

Більшість виробничих голосових систем поєднують окремих постачальників для кожного етапу. Аудіо потрапляє до одного провайдера для транскрипції, потім маршрутується до іншого для відповіді LLM, і далі — до третього для синтезу мови. Кожен перехід додає затримку в мережі та потенційні точки відмови.

Перевага Together: тримати все в одному датацентрі. Компанія повідомляє про затримку менше 500 мс у оптимальних умовах, хоча максимальний показник у 700 мс — це їхній заявлений поріг для повної обробки.

«Голосові агенти залежать від затримки, і кожен перехід між провайдерами — це точка, де досвід може погіршитися», — сказав Абе Перселл, віце-президент з партнерств Deepgram.

Гнучкість моделей без розрізнених частин

Платформа підтримує Whisper Large v3, Minimax Speech 2.6 Turbo, Rime Arcana і Kokoro разом із повним каталогом LLM від Together. Розробники можуть змінювати компоненти без повторної інтеграції — корисно для команд, що тестують різні голосові характеристики або точність транскрипції для конкретних випадків.

Cartesia додає свої моделі Sonic-3 і Sonic-2 TTS до платформи. Deepgram надає Nova-3, Nova-3 Multilingual для транскрипції, Flux для розмовного speech-to-text і Aura-2 для синтезу.

На відміну від непрозорих систем speech-to-speech, модульний підхід Together зберігає доступ до проміжних транскриптів і відповідей. Команди можуть перевіряти, змінювати і маршрутизувати дані під час обробки — це необхідно для багатьох корпоративних процесів відповідності.

Вимоги підприємств і виробниче використання

Платформа орієнтована на регульовані галузі з опцією нульового збереження даних, сертифікацією SOC 2 Тип II, відповідністю HIPAA і виділеним зберіганням даних. Decagon, яка керує голосовими агентами підтримки клієнтів для обробки рахунків і технічних питань, вже працює на цій платформі.

Разом AI залучила 305 мільйонів доларів у лютому 2025 року за оцінкою в 3,3 мільярда доларів, і повідомляється, що зараз ведуться переговори щодо залучення інвестицій на рівні 7,5 мільярда доларів. У компанії понад 450 000 розробників і понад 100 мільйонів доларів щорічного доходу.

Запуск голосової платформи означає розширення Beyond основного бізнесу з інференції LLM у зростаючий ринок голосового AI, де затримка і надійність залишаються постійними проблемами для виробничих розгортань.

Джерело зображення: Shutterstock

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити