MIT спільно з NVIDIA розробляють технологію TLT, що значно підвищує швидкість тренування великих моделей штучного інтелекту для дедуктивних задач — до 210% швидше.

robot
Генерація анотацій у процесі

IT之家 28 лютого повідомляє, що MIT News 26 лютого опублікувало допис у блозі, в якому йдеться про те, що Массачусетський технологічний інститут (MIT) разом із NVIDIA та іншими організаціями розробив технологію «приборкання довгого хвоста» (TLT), яка може значно підвищити ефективність навчання інференційних великих мовних моделей (LLM).

Як повідомляє IT之家, у блозі пояснюється, що великі моделі для міркування добре розв’язують складні проблеми, розкладаючи кроки. Однак під час навчання з підкріпленням (RL) витрати обчислювальних ресурсів і енергії є надзвичайно великими.

Дослідницька група з’ясувала, що етап «rollout» — тобто «прогонів» із генерацією кількох варіантів відповідей — займає до 85% часу навчання. Оскільки різні процесори генерують відповіді різної довжини, процесори, що завершують роботу швидше, змушені простоювати й чекати, поки інші процесори завершать завдання з довгими текстами, через що виникає серйозна «вузькість» ефективності.

Щоб вирішити цю проблему, дослідники з MIT разом із NVIDIA, Федеральною політехнічною школою Цюриха та іншими організаціями запропонували адаптивне рішення під назвою «приборкання довгого хвоста» (TLT).

Ключова ідея цього підходу полягає в інноваційному використанні технології «спекулятивного декодування»: під час навчання меншої «чернеткової моделі» (drafter) для швидкого прогнозування майбутніх виходів великої моделі, а потім велика модель масово верифікує ці припущення. Таким чином великій моделі не потрібно послідовно генерувати виходи по одному за раз, що суттєво прискорює обробку.

У традиційному спекулятивному декодуванні чернеткова модель зазвичай навчається лише один раз і залишається статичною. Проте в умовах навчання з підкріпленням основна модель має оновлюватися тисячі разів, тож статична чернеткова модель швидко втрачає актуальність.

Тому в системі TLT вводиться «адаптивний тренер чернеткової моделі». Щойно частина процесорів завершує короткі запити й переходить у стан простою, система негайно планує їх для реального часу навчання чернеткової моделі.

Одночасно «адаптивний рушій rollout» автоматично коригує стратегію декодування відповідно до характеристик робочого навантаження, щоб чернеткова модель завжди була максимально синхронною з цільовою великою мовною моделлю та не збільшувала витрати додаткових обчислювальних ресурсів.

Тестування на реальних наборах даних показало, що технологія TLT під час збереження точності моделей повністю без втрат підвищує швидкість навчання кількох інференційних великих мовних моделей на 70%–210%.

Крім того, отримана легка чернеткова модель може бути використана як безкоштовний побічний продукт і напряму застосовуватися для подальшого ефективного розгортання. У майбутньому дослідницька група планує інтегрувати цю технологію в більше рамок навчання та інференсу, щоб додатково знизити витрати на розробку ШІ та підвищити ефективність використання енергії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити