Sakana AI запускає систему KAME, забезпечуючи майже нульову затримку та більш глибоке введення знань

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 3 травня (UTC+8), Sakana AI запустила гібридну архітектуру KAME, яка може у реальному часі інжектувати знання бекенд-LLM, зберігаючи майже нульову затримку. Ця система складається з двох асинхронних компонентів, що працюють паралельно: фронтенд на базі архітектури Moshi з модулем S2S, який обробляє аудіо приблизно за 80 мілісекунд і негайно генерує відповідь; бекенд складається з компонента STT і повного LLM, що постійно формує часткову транскрипцію та генерує потоковий oracle, який передається на фронтенд, і при надходженні кращого oracle може коригувати відповідь у процесі. Оцінки показують, що окремий Moshi має бал 2.05, KAME+gpt-4.1 — 6.43, KAME+claude-opus-4-1 — 6.23, затримка у всіх випадках порівнянна з Moshi; провідна система Unmute має бал 7.70, але затримка досягає 2.1 секунди. Бекенд KAME незалежний, підтримує перемикання LLM під час інференсу без повторного навчання.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити