Джерело: Qubits
Більше обмірковуючи кроки, перш ніж ChatGPT дасть відповідь, можна підвищити точність.
Тож чи можете ви пропустити підказку та безпосередньо засвоїти цю здатність у великій моделі?
Нове дослідження, проведене CMU та командою Google, додає токен паузи під час навчання великих моделей для досягнення цього.
В експерименті покращилися бали 8 оцінок, серед яких оцінка EM SQuAD зросла на 18%, CommonSenseQA збільшилася на 8%, а завдання логічного висновку в GSM8k також зросло на 1%.
Дослідник Джек Хак сказав, що не так давно висунув подібну гіпотезу і був радий її перевірці.
Інженер Nvidia Аарон Еріксон сказав, що чи є правдою додавати «е-е-е-е» під час розмови з людьми?
В основі всього дослідження лежить проста ідея:
Додайте послідовність (токен паузи) до вхідної послідовності, затримуючи модель від виведення наступного токена.
Це може дати моделі додатковий обчислювальний час для обробки більш складних вхідних даних.
Автори не тільки вводять його, коли подальша задача налаштовується, але й випадковим чином вставляють його в послідовність під час попереднього навчання, дозволяючи моделі навчитися використовувати переваги цієї обчислювальної затримки на обох етапах.
На етапі попереднього тренування певний відсоток токенів паузи випадковим чином вставляється в корпус у вхідну послідовність для стандартної авторегресійної попередньої підготовки. Однак прогноз призупиненого токена пропускається при розрахунку збитку.
Коли низхідне завдання налаштовується, певна кількість токенів паузи додається до вхідних даних, а потім робиться авторегресивне прогнозування цільової послідовності, одночасно тонко налаштовуючи параметри моделі.
Фаза логічного висновку також додає таку саму кількість токенів паузи, але ігнорує вихід моделі до останнього токена паузи, а потім починає витягувати відповідь.
В експерименті використовується стандартна модель чистого декодера Transformer, яка розділена на дві версії: параметр 130M і параметр 1B.
Токен паузи додає лише 1024 параметри, що є його власним розміром вбудовування.
Експерименти над 9 різними завданнями показали, що ефект від введення токенів паузи тільки на етапі тонкого налаштування не був очевидним, а деякі завдання не покращилися.
Але якщо ви використовуєте токени паузи як на етапі попереднього навчання, так і на етапі тонкого налаштування, ви отримаєте значне покращення більшості завдань.
У статті також досліджуються ключові гіперпараметри, такі як кількість і розташування підвішених токенів. З’ясувалося, що для різних моделей зазвичай знайдеться оптимальна кількість.
Наостанок автори також зазначають, що ця робота також має низку обмежень.
Генеральний директор пошукової системи You.com заявив, що наступний крок - випробувати всі методи поліпшення когнітивних функцій людини на великих моделях?
Зараз є «подумай крок за кроком» і «глибоко вдихни».
Можливо, наступний блокбастер – навчити великих моделей спати з проблемами, або більш обурливо здоровим харчуванням і фізичними вправами.
Паперова адреса:
Посилання на джерела:
[1]