Источник: Кубиты
Более тщательное обдумывание шагов до того, как ChatGPT даст ответ, может повысить точность.
Итак, можете ли вы пропустить подсказку и напрямую усвоить эту способность в большой модели?
Новое исследование, проведенное CMU и командой Google, добавляет токен паузы при обучении больших моделей для достижения этой цели.
В эксперименте улучшились результаты 8 оценок, среди которых EM-оценка SQuAD увеличилась на 18%, CommonSenseQA увеличилась на 8%, а задача вывода в GSM8k также увеличилась на 1%.
Исследователь Джек Хак сказал, что не так давно он выдвинул подобную гипотезу и был рад увидеть ее проверку.
Инженер Nvidia Аарон Эриксон (Aaron Erickson) сказал, что это правда — добавлять «угу-а» в разговоре с людьми?
Все исследование основано на простой идее:
Добавьте ряд (маркер паузы) к входной последовательности, задерживая вывод модели следующей лексемы.
Это может дать модели дополнительное вычислительное время для обработки более сложных входных данных.
Авторы не только вводят его при тонкой настройке нижестоящей задачи, но и случайным образом вставляют его в последовательность во время предварительного обучения, позволяя модели научиться использовать эту вычислительную задержку на обоих этапах.
На этапе предварительного обучения определенный процент токенов паузы случайным образом вставляется в корпус во входную последовательность для стандартного авторегрессионного претренинга. Однако прогноз приостановленного токена пропускается при расчете убытка.
При тонкой настройке нижестоящей задачи к входным данным добавляется определенное количество маркеров паузы, а затем выполняется авторегрессионное прогнозирование целевой последовательности при тонкой настройке параметров модели.
На этапе вывода также добавляется такое же количество маркеров паузы, но выходные данные модели игнорируются до последнего маркера паузы, а затем начинается извлечение ответа.
В эксперименте используется стандартная модель Transformer pure Decoder, которая разделена на две версии: параметр 130M и параметр 1B.
Маркер паузы добавляет только 1024 параметра, что соответствует его собственному размеру внедрения.
Эксперименты на 9 различных задачах показали, что эффект от введения токенов паузы только на этапе тонкой настройки не был очевиден, а некоторые задачи не улучшились.
Но если вы используете маркеры паузы как на этапе предварительного обучения, так и на этапе тонкой настройки, вы получите значительное улучшение при выполнении большинства задач.
В документе также исследуются ключевые гиперпараметры, такие как количество и местоположение приостановленных токенов. Было выявлено, что обычно существует оптимальное количество для разных моделей.
Наконец, авторы также указывают на то, что эта работа также имеет ряд ограничений.
Генеральный директор поисковой системы You.com сказал, что следующим шагом будет опробовать все методы улучшения когнитивных способностей человека на больших моделях?
Теперь есть «думай шаг за шагом» и «делай глубокий вдох».
Может быть, следующим блокбастером станет обучение больших моделей спать с проблемами или более возмутительно здоровому питанию и физическим упражнениям.
Адрес доклада:
Ссылки:
[1]