Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
MIT спільно з NVIDIA розробляють технологію TLT, що значно підвищує швидкість тренування великих моделей штучного інтелекту для дедуктивних задач — до 210% швидше.
IT之家 28 лютого повідомляє, що MIT News 26 лютого опублікувало допис у блозі, в якому йдеться про те, що Массачусетський технологічний інститут (MIT) разом із NVIDIA та іншими організаціями розробив технологію «приборкання довгого хвоста» (TLT), яка може значно підвищити ефективність навчання інференційних великих мовних моделей (LLM).
Як повідомляє IT之家, у блозі пояснюється, що великі моделі для міркування добре розв’язують складні проблеми, розкладаючи кроки. Однак під час навчання з підкріпленням (RL) витрати обчислювальних ресурсів і енергії є надзвичайно великими.
Дослідницька група з’ясувала, що етап «rollout» — тобто «прогонів» із генерацією кількох варіантів відповідей — займає до 85% часу навчання. Оскільки різні процесори генерують відповіді різної довжини, процесори, що завершують роботу швидше, змушені простоювати й чекати, поки інші процесори завершать завдання з довгими текстами, через що виникає серйозна «вузькість» ефективності.
Щоб вирішити цю проблему, дослідники з MIT разом із NVIDIA, Федеральною політехнічною школою Цюриха та іншими організаціями запропонували адаптивне рішення під назвою «приборкання довгого хвоста» (TLT).
Ключова ідея цього підходу полягає в інноваційному використанні технології «спекулятивного декодування»: під час навчання меншої «чернеткової моделі» (drafter) для швидкого прогнозування майбутніх виходів великої моделі, а потім велика модель масово верифікує ці припущення. Таким чином великій моделі не потрібно послідовно генерувати виходи по одному за раз, що суттєво прискорює обробку.
У традиційному спекулятивному декодуванні чернеткова модель зазвичай навчається лише один раз і залишається статичною. Проте в умовах навчання з підкріпленням основна модель має оновлюватися тисячі разів, тож статична чернеткова модель швидко втрачає актуальність.
Тому в системі TLT вводиться «адаптивний тренер чернеткової моделі». Щойно частина процесорів завершує короткі запити й переходить у стан простою, система негайно планує їх для реального часу навчання чернеткової моделі.
Одночасно «адаптивний рушій rollout» автоматично коригує стратегію декодування відповідно до характеристик робочого навантаження, щоб чернеткова модель завжди була максимально синхронною з цільовою великою мовною моделлю та не збільшувала витрати додаткових обчислювальних ресурсів.
Тестування на реальних наборах даних показало, що технологія TLT під час збереження точності моделей повністю без втрат підвищує швидкість навчання кількох інференційних великих мовних моделей на 70%–210%.
Крім того, отримана легка чернеткова модель може бути використана як безкоштовний побічний продукт і напряму застосовуватися для подальшого ефективного розгортання. У майбутньому дослідницька група планує інтегрувати цю технологію в більше рамок навчання та інференсу, щоб додатково знизити витрати на розробку ШІ та підвищити ефективність використання енергії.