Розбір Berkeley GEPA: без оновлення ваг AI може навчитися новим завданням, знизивши витрати на тренування в 35 разів проти RL

Каліфорнійський університет у Берклі представив новий метод навчання AI — GEPA, який уже прийнято ICLR 2026 як Oral-публікацію. GEPA не оновлює ваги моделі, не потребує тренувань із GPU: достатньо одного LLM, який багаторазово переписує підказки AI-системи, спираючись на «читання тренувальних записів». У 6 завданнях GEPA в середньому випереджає популярні методи підкріплювального навчання GRPO на 6%, а в найкращому випадку — на 20%. Кількість необхідних тренувальних спроб (rollouts) менша у 35 разів. Після того як дослідження, зібране AI-інженерною спільнотою, поширили у X, воно викликало жваве обговорення; нині GEPA інтегровано в DSPy як оптимізатор першого класу.

Що робить GEPA: використовує тренувальні записи як навчальні матеріали, а не лише дивиться на бали

Традиційні методи підкріплювального навчання (наприклад, GRPO) працюють так: AI один раз запускають виконувати завдання, за результатом дають оцінку «+1 або -1», а далі ці бали багаторазово використовують для корекції ваг моделі. Проблема в тому, що під час виконання завдання процес AI зазвичай містить тисячі токенів міркувань, виклики інструментів, повідомлення про помилки — усі ці багаті деталі стискаються до одного числа, а інформація про хід процесу губиться. Тому RL доводиться запускати десятки тисяч разів, щоб досягти збіжності.

GEPA робить навпаки: після кожного запуску завдання AI передає іншому «LLM для рефлексії» весь перебіг процесу (reasoning, виклики інструментів, записи про помилки) без змін. LLM для рефлексії працює як досвідчений інженер, який читає log виконання: він знаходить, на якому кроці сталася помилка, чому вона сталася, і як слід змінити підказку, а потім безпосередньо переписує промпт для відповідного модуля. За однакової кількості запусків GEPA витягує значно більше корисних сигналів, ніж RL із його одиничним числом-оцінкою.

Чому виходить краще: перетворює «оцінювання» на «читання всього перебігу»

GEPA у 6 завданнях у середньому перемагає GRPO на 6%, а в найкращому випадку — на 20%. У порівнянні з іншим популярним оптимізатором підказок MIPROv2 GEPA також випереджає на понад 10% (на базі математичних задач AIME-2025 підвищення на 12%). Найкритичніше — вартість навчання: щоб досягти зіставної продуктивності, GEPA потрібно набагато менше rollouts (один повний запуск завдання) — у 35 разів.

Інші дані: після інтеграції GEPA з DSPy «Full Program Adapter» може оптимізувати весь DSPy-програмний код (включно із signature, модулями та керуванням потоком), і на математичному бенчмарку MATH досягає 93% точності — суттєво більше за початковий варіант DSPy з ChainOfThought, який має 67%. GEPA також особливо добре показує себе в multi-module робочих процесах (AI-agent із послідовним з’єднанням кількох модулів): він точніше «фокусується» на конкретному модулі, що дає помилку, і переписує підказку саме для нього, замість того щоб коригувати весь системний контур.

Хто першим почне використовувати: DSPy як громадянин першого класу, GitHub уже відкрив код

Код GEPA відкрито на GitHub: його інтегровано в DSPy як dspy.GEPA, а також окремо опубліковано як Python library. Дослідницька команда представлена в UC Berkeley, Stanford, Notre Dame, Anthropic та інших організаціях; серед авторів paper є Matei Zaharia (співзасновник Databricks, один із ключових авторів DSPy) та Omar Khattab (один із ключових авторів DSPy).

Для спільноти розробників GEPA пропонує новий підхід до проблеми «маємо багато rollout, але не знаємо, як їх використати»: більшість команд уже накопичила тисячі й десятки тисяч записів про запуски agent для виконання задач, але, окрім перегляду кількох прикладів під час баг-дебагу, немає системного способу перетворити ці записи на покращення моделі. Наступний пункт спостереження — як GEPA буде впроваджуватися в реальних корпоративних agentic-робочих процесах (наприклад, автоматизація клієнтської підтримки чи автопочинка програм), і чи з’являться незалежні від DSPy реалізації GEPA.

Ця стаття «Berkeley GEPA розбір»: без оновлення ваг AI вчиться виконувати нові завдання, потребуючи в 35 разів менше тренувань, ніж RL, — була опублікована найпершою на платформі «ланцюгових новин» ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Particle Network оприлюднює дорожню карту універсальних акаунтів, запускає Universal Deposit SDK та AI Agent Accounts

За даними ChainCatcher, Particle Network сьогодні опублікувала наступний етап дорожньої карти Universal Accounts, представивши два нові продукти в найближчі місяці: Universal Deposit SDK, який дає змогу розробникам додавати мультиланцюгові депозити приблизно за 10 рядків коду, і Universal Agent Accounts,

GateNews4год тому

Roblox запускає AI-програмне забезпечення, щоб кинути виклик Unity та Epic Games

Згідно з Bloomberg, Roblox запускає нове AI-програмне забезпечення, щоб конкурувати з Unity Technologies та Epic Games, чиї рушії домінують у розробці відеоігор із великими бюджетами. Генеральний директор Дейв Баззуккі заявив, що інструмент має на меті допомогти творцям легше створювати багатокористувацькі ігри з фотореалістичною графікою, що працює на ar

GateNews9год тому

ВМС США підписали майже $100 мільйонів контракт на $100 млн із Domino Data Lab на виявлення мін у протоці Ормуз

За повідомленням інформаційної агенції Xinhua, нещодавно командування ВМС США з систем інформаційної боротьби підписало контракт із компанією Domino Data Lab, що базується у Сан-Франциско, для закупівлі та розгортання рішень на основі машинного навчання. Контракт, вартість якого становить майже $100 мільйонів у разі повного виконання, спрямований на те, щоб

GateNews11год тому

XAI Grok представив Custom Voices: 2-хвилинне клонування та двоетапну перевірку особи

xAI представила Grok Custom Voices: в консолі записується приблизно 1 хвилина аудіо, за 2 хвилини створюється готова для TTS і Voice Agent API модель кастомного голосу. Паралельно опубліковано Grok 4.3 та Voice Library. Щоб запобігти клонуванню, застосовують двоетапну верифікацію: спершу людина читає перевірочну фразу, а потім порівнюють speaker embedding, щоб генерувати голос лише тієї самої особи. Voice Library об’єднує керування власноруч створеними та заздалегідь підготовленими голосами: 80+ типів, 28 мов; надалі планують розширювати.

ChainNewsAbmedia13год тому

Настільна версія OpenAI Codex отримала функцію для домашніх улюбленців: 3 статусні підказки, інкубація залежно від мови використання

Настільна версія OpenAI Codex нещодавно додала функцію «Pets» («Тваринки»), що дозволяє розробникам під час кодування в реальному часі за допомогою анімованого персонажа з підказкою стежити за станом завдань Codex. Згідно з офіційною документацією OpenAI, overlay для тваринок перемикається залежно від поточного стану Codex на 3

ChainNewsAbmedia14год тому

MoonPay запускає MoonAgents Card — віртуальну Mastercard для AI-агентів — у п’ятницю

За даними The Block, MoonPay у п’ятницю запустила MoonAgents Card — віртуальну дебетову картку Mastercard. Картка призначена і для AI-агентів, і для користувачів: вона конвертує стейблкоїни у фіат у момент оплати та дає змогу витрачати кошти в будь-якому онлайн-магазині по всьому світу, який приймає Mastercard. Картка i

GateNews05-02 13:51
Прокоментувати
0/400
Немає коментарів