A equipa de investigação da Universidade da Califórnia, Berkeley, propôs um novo método de treino de IA, o GEPA, que já foi aceite na ICLR 2026 como artigo Oral. O GEPA não atualiza os pesos do modelo, não necessita de treino em GPU e apenas usa um LLM que “lê registos de treino”, reescrevendo repetidamente as instruções (prompts) do sistema de IA. Assim, consegue superar em média os métodos de reforço (reinforcement learning) dominantes GRPO em 6% em 6 tarefas, com melhor desempenho máximo de 20%, e usando 35 vezes menos tentativas de treino (rollouts). Depois de, por iniciativa da comunidade de engenharia de IA, a abordagem ser divulgada e discutida na plataforma X via difusão, já foi integrada no DSPy como um otimizador de primeira classe.
O que o GEPA está a fazer: usar os registos de treino como material didático, sem olhar apenas para pontuações
O fluxo de trabalho dos métodos tradicionais de aprendizagem por reforço (como o GRPO) é: fazer o IA executar uma tarefa, atribuir uma pontuação “+1 ou -1” com base no resultado, e ajustar repetidamente os pesos do modelo com base nessa pontuação. O problema é que o processo da IA ao executar uma única tarefa normalmente inclui passos de raciocínio com milhares de tokens, chamadas a ferramentas e mensagens de erro—todos esses detalhes ricos acabam comprimidos numa única pontuação e a informação do processo é descartada. Por isso, o RL precisa de correr dezenas de milhares de vezes para convergir.
A abordagem do GEPA é o oposto: após a IA terminar a tarefa, entrega a outra “LLM de reflexão” a totalidade do processo (raciocínio, chamadas a ferramentas, registos de erros) de forma fiel. A LLM de reflexão funciona como um engenheiro sénior a ler um log de código: identifica em que passo ocorreu o erro, por que motivo ocorreu e como deve ser alterado o prompt; em seguida, reescreve diretamente o prompt do módulo em causa. Do mesmo modo, ao correr a tarefa uma vez, o GEPA extrai muito mais sinal do que o RL, que usa apenas uma pontuação única.
Por que razão consegue vencer: trocar “dar pontuações” por “ler o processo todo”
O GEPA vence o GRPO em 6 tarefas: em média mais 6% e com máximo de 20%. Em comparação com outro otimizador de prompts dominante, o MIPROv2, também supera em mais de 10% (com uma melhoria de 12% na base de referência de problemas de matemática AIME-2025). O mais importante, porém, é o custo de treino: para atingir desempenho equivalente, o GEPA precisa de apenas 35 vezes menos rollouts (execuções completas de tarefas).
Outra métrica é que, após a integração com o DSPy, o “Full Program Adapter” do GEPA consegue otimizar todo o programa no DSPy (incluindo signature, módulos e controlo de fluxo). No benchmark de matemática MATH, atinge 93% de exatidão—muito acima dos 67% da escrita do ChainOfThought original do DSPy. O GEPA também se destaca em fluxos de trabalho multi-módulo (agentes de IA com módulos encadeados): consegue localizar com precisão um módulo que falhou e reescrever o seu prompt, em vez de ajustar todo o sistema.
Quem vai começar primeiro a usá-lo: DSPy como cidadão de primeira classe, e já com código aberto no GitHub
O código do GEPA já foi disponibilizado no GitHub e foi integrado no framework DSPy na forma dspy.GEPA; além disso, é publicado separadamente como uma biblioteca Python. A equipa de investigação é composta por membros de UC Berkeley, Stanford, Notre Dame, Anthropic e outras instituições; entre os autores do artigo estão Matei Zaharia (cofundador da Databricks e principal autor do DSPy) e Omar Khattab (principal autor do DSPy).
Para a comunidade de programadores, o GEPA oferece uma nova solução para o problema “temos muitos rollouts, mas não sabemos como utilizá-los”: muitas equipas já acumularam milhares de registos de execução de tarefas por agentes, mas, para além de folhear alguns registos quando ocorre um erro para dar “code bug” (inspeção pontual), não existe um método sistemático para transformar esses registos em melhoria do modelo. O próximo ponto de observação é como o GEPA é aplicado de forma prática em workflows empresariais de agentes (como automação de atendimento ao cliente e correção automática de código) e se surgirá uma implementação equivalente do GEPA fora do framework DSPy.
O artigo Berkeley: análise do GEPA—não atualizar pesos para a IA aprender novas tarefas, vencendo o RL com 35 vezes menos custo de treino—apareceu pela primeira vez na cadeia de notícias ABMedia.
Related Articles
A OpenAI Lança o Codex Pets, um Companheiro Virtual com IA e Geração Personalizada
MoonPay Lança o Cartão MoonAgents para Agentes de IA na Rede Mastercard
A xAI Lança API de Clonagem de Voz com Suporte a 80+ Vozes em 28 Línguas
A MoonPay lança o MoonAgents Card, uma Mastercard virtual para agentes de IA e utilizadores, na sexta-feira
A MoonPay Lança o Cartão MoonAgents na Rede Mastercard Sexta-feira
Nubank planeia um investimento de 8,2 mil milhões de dólares no Brasil para 2026, duplicando a despesa com IA e expandindo o crédito