Análise GEPA de Berkeley: fazer com que a IA aprenda novas tarefas sem atualizar os pesos, 35 vezes menos custo de treino do que o RL

A equipa de investigação da Universidade da Califórnia, Berkeley, propôs um novo método de treino de IA, o GEPA, que já foi aceite na ICLR 2026 como artigo Oral. O GEPA não atualiza os pesos do modelo, não necessita de treino em GPU e apenas usa um LLM que “lê registos de treino”, reescrevendo repetidamente as instruções (prompts) do sistema de IA. Assim, consegue superar em média os métodos de reforço (reinforcement learning) dominantes GRPO em 6% em 6 tarefas, com melhor desempenho máximo de 20%, e usando 35 vezes menos tentativas de treino (rollouts). Depois de, por iniciativa da comunidade de engenharia de IA, a abordagem ser divulgada e discutida na plataforma X via difusão, já foi integrada no DSPy como um otimizador de primeira classe.

O que o GEPA está a fazer: usar os registos de treino como material didático, sem olhar apenas para pontuações

O fluxo de trabalho dos métodos tradicionais de aprendizagem por reforço (como o GRPO) é: fazer o IA executar uma tarefa, atribuir uma pontuação “+1 ou -1” com base no resultado, e ajustar repetidamente os pesos do modelo com base nessa pontuação. O problema é que o processo da IA ao executar uma única tarefa normalmente inclui passos de raciocínio com milhares de tokens, chamadas a ferramentas e mensagens de erro—todos esses detalhes ricos acabam comprimidos numa única pontuação e a informação do processo é descartada. Por isso, o RL precisa de correr dezenas de milhares de vezes para convergir.

A abordagem do GEPA é o oposto: após a IA terminar a tarefa, entrega a outra “LLM de reflexão” a totalidade do processo (raciocínio, chamadas a ferramentas, registos de erros) de forma fiel. A LLM de reflexão funciona como um engenheiro sénior a ler um log de código: identifica em que passo ocorreu o erro, por que motivo ocorreu e como deve ser alterado o prompt; em seguida, reescreve diretamente o prompt do módulo em causa. Do mesmo modo, ao correr a tarefa uma vez, o GEPA extrai muito mais sinal do que o RL, que usa apenas uma pontuação única.

Por que razão consegue vencer: trocar “dar pontuações” por “ler o processo todo”

O GEPA vence o GRPO em 6 tarefas: em média mais 6% e com máximo de 20%. Em comparação com outro otimizador de prompts dominante, o MIPROv2, também supera em mais de 10% (com uma melhoria de 12% na base de referência de problemas de matemática AIME-2025). O mais importante, porém, é o custo de treino: para atingir desempenho equivalente, o GEPA precisa de apenas 35 vezes menos rollouts (execuções completas de tarefas).

Outra métrica é que, após a integração com o DSPy, o “Full Program Adapter” do GEPA consegue otimizar todo o programa no DSPy (incluindo signature, módulos e controlo de fluxo). No benchmark de matemática MATH, atinge 93% de exatidão—muito acima dos 67% da escrita do ChainOfThought original do DSPy. O GEPA também se destaca em fluxos de trabalho multi-módulo (agentes de IA com módulos encadeados): consegue localizar com precisão um módulo que falhou e reescrever o seu prompt, em vez de ajustar todo o sistema.

Quem vai começar primeiro a usá-lo: DSPy como cidadão de primeira classe, e já com código aberto no GitHub

O código do GEPA já foi disponibilizado no GitHub e foi integrado no framework DSPy na forma dspy.GEPA; além disso, é publicado separadamente como uma biblioteca Python. A equipa de investigação é composta por membros de UC Berkeley, Stanford, Notre Dame, Anthropic e outras instituições; entre os autores do artigo estão Matei Zaharia (cofundador da Databricks e principal autor do DSPy) e Omar Khattab (principal autor do DSPy).

Para a comunidade de programadores, o GEPA oferece uma nova solução para o problema “temos muitos rollouts, mas não sabemos como utilizá-los”: muitas equipas já acumularam milhares de registos de execução de tarefas por agentes, mas, para além de folhear alguns registos quando ocorre um erro para dar “code bug” (inspeção pontual), não existe um método sistemático para transformar esses registos em melhoria do modelo. O próximo ponto de observação é como o GEPA é aplicado de forma prática em workflows empresariais de agentes (como automação de atendimento ao cliente e correção automática de código) e se surgirá uma implementação equivalente do GEPA fora do framework DSPy.

O artigo Berkeley: análise do GEPA—não atualizar pesos para a IA aprender novas tarefas, vencendo o RL com 35 vezes menos custo de treino—apareceu pela primeira vez na cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Karpathy revela em primeira mão: um método completo para construir uma base de conhecimento pessoal com LLM

O antigo membro da equipa fundador da OpenAI e ex-diretor de IA da Tesla, Andrej Karpathy, publicou no X um fluxo de trabalho de “LLM Knowledge Bases”. Nele explica que, recentemente, converteu o uso de uma grande quantidade de tokens de “manipular código” para “manipular conhecimento” — usando LLM para transformar artigos, publicações, pastas, imagens dispersas num wiki pessoal automaticamente mantido. Todo o processo já acumulou, nos seus próprios projetos de investigação, cerca de ~100 artigos, ~400 mil palavras, e foi todo escrito e atualizado pelo LLM. Este artigo reúne o setup completo de Karpathy e fornece aos programadores que querem replicar uma lista de verificação que podem pôr em prática. Ideia central: dados em bruto → compilação com LLM → wiki → Q&A A filosofia de design de Karpathy pode ser resumida em

ChainNewsAbmedia2h atrás

Empresa de tesouraria de Bitcoin K Wave Media assegura até $485M para a construção de infraestruturas de IA

De acordo com o ChainCatcher, a empresa de tesouraria de bitcoin cotada na Nasdaq, K Wave Media, anunciou a 4 de maio uma viragem estratégica para infraestruturas de IA, garantindo até 485 milhões de dólares em apoio de capital para investimentos em centros de dados, serviços de aluguer de GPU e aquisições e parcerias em infraestruturas de IA. A empresa

GateNews3h atrás

A Antimatter lança um plano de centro de dados de IA com financiamento de 300 milhões de euros

A Antimatter, uma empresa francesa de infraestruturas cloud para cargas de trabalho de IA, lançou-se a 4 de maio ao reunir três empresas já existentes: Datafactory, Policloud e Hivenet. A empresa está a angariar 300 milhões de euros (351 milhões de dólares) para implementar 100 unidades de micro centros de dados em 2026 para inferência de IA

CryptoFrontier5h atrás

O Ministério da Educação “Bibliotecas com AI” — bibliotecas gratuitas para usar ChatGPT e Claude! Prazo e locais: veja de uma vez

O Ministério da Educação está a impulsionar “as bibliotecas têm IA”, com início no quarto trimestre deste ano, a partir da Biblioteca Nacional e outras bibliotecas nacionais, com a instalação de 5 computadores de IA em cada biblioteca. Os cidadãos podem utilizar gratuitamente ferramentas como o ChatGPT, o Claude e o Gemini apenas com o cartão de leitor, reduzindo a diferença no acesso a IA paga, e expandindo-se para bibliotecas de 47 universidades nacionais; os fundos serão angariados pela escola ou mediante candidatura a apoios. Em simultâneo, é necessário ultrapassar desafios como os horários de utilização, a gestão de contas, a privacidade e as autorizações.

ChainNewsAbmedia6h atrás

Economia de modelos virtuais com IA: Aitana, Emily e a análise de 4 sistemas em Markdown

As modelos virtuais de IA passaram de experimentos de assunto a entidades comerciais que conseguem ganhar dezenas de milhar de dólares por mês, com todo o stack tecnológico a amadurecer rapidamente num prazo de 18 meses. Este artigo reúne três casos típicos: Aitana López, da The Clueless (Barcelona, rendimentos mensais de €10,000), Emily Pellegrini, criada por um autor anónimo (cerca de 1万美元 por semana), e o recente caso da “Maya” que circula na plataforma X — uma estudante do Texas que terá construído uma personalidade virtual de IA com 4 ficheiros markdown, gerando 43 mil dólares na conta OnlyFans no primeiro mês. Aitana López: A modelo virtual própria da The Clueless, com rendimentos até €10,000 Aitana López é do

ChainNewsAbmedia8h atrás

TipTip atinge a rentabilidade em EBITDA à medida que a IA reforça a bilhética de entretenimento

A plataforma indonésia de entretenimento e experiências TipTip anunciou a 4 de maio que atingiu a rentabilidade em EBITDA a nível de empresa no início de 2026, impulsionada por controlos de custos, melhoria da economia unitária e parceria com o investidor líder East Ventures. Crescimento do bilheteira de entretenimento A TipTip's entretenimento t

CryptoFrontier11h atrás
Comentar
0/400
Nenhum comentário