Análise GEPA de Berkeley: fazer com que a IA aprenda novas tarefas sem atualizar os pesos, 35 vezes menos custo de treino do que o RL

A equipa de investigação da Universidade da Califórnia, Berkeley, propôs um novo método de treino de IA, o GEPA, que já foi aceite na ICLR 2026 como artigo Oral. O GEPA não atualiza os pesos do modelo, não necessita de treino em GPU e apenas usa um LLM que “lê registos de treino”, reescrevendo repetidamente as instruções (prompts) do sistema de IA. Assim, consegue superar em média os métodos de reforço (reinforcement learning) dominantes GRPO em 6% em 6 tarefas, com melhor desempenho máximo de 20%, e usando 35 vezes menos tentativas de treino (rollouts). Depois de, por iniciativa da comunidade de engenharia de IA, a abordagem ser divulgada e discutida na plataforma X via difusão, já foi integrada no DSPy como um otimizador de primeira classe.

O que o GEPA está a fazer: usar os registos de treino como material didático, sem olhar apenas para pontuações

O fluxo de trabalho dos métodos tradicionais de aprendizagem por reforço (como o GRPO) é: fazer o IA executar uma tarefa, atribuir uma pontuação “+1 ou -1” com base no resultado, e ajustar repetidamente os pesos do modelo com base nessa pontuação. O problema é que o processo da IA ao executar uma única tarefa normalmente inclui passos de raciocínio com milhares de tokens, chamadas a ferramentas e mensagens de erro—todos esses detalhes ricos acabam comprimidos numa única pontuação e a informação do processo é descartada. Por isso, o RL precisa de correr dezenas de milhares de vezes para convergir.

A abordagem do GEPA é o oposto: após a IA terminar a tarefa, entrega a outra “LLM de reflexão” a totalidade do processo (raciocínio, chamadas a ferramentas, registos de erros) de forma fiel. A LLM de reflexão funciona como um engenheiro sénior a ler um log de código: identifica em que passo ocorreu o erro, por que motivo ocorreu e como deve ser alterado o prompt; em seguida, reescreve diretamente o prompt do módulo em causa. Do mesmo modo, ao correr a tarefa uma vez, o GEPA extrai muito mais sinal do que o RL, que usa apenas uma pontuação única.

Por que razão consegue vencer: trocar “dar pontuações” por “ler o processo todo”

O GEPA vence o GRPO em 6 tarefas: em média mais 6% e com máximo de 20%. Em comparação com outro otimizador de prompts dominante, o MIPROv2, também supera em mais de 10% (com uma melhoria de 12% na base de referência de problemas de matemática AIME-2025). O mais importante, porém, é o custo de treino: para atingir desempenho equivalente, o GEPA precisa de apenas 35 vezes menos rollouts (execuções completas de tarefas).

Outra métrica é que, após a integração com o DSPy, o “Full Program Adapter” do GEPA consegue otimizar todo o programa no DSPy (incluindo signature, módulos e controlo de fluxo). No benchmark de matemática MATH, atinge 93% de exatidão—muito acima dos 67% da escrita do ChainOfThought original do DSPy. O GEPA também se destaca em fluxos de trabalho multi-módulo (agentes de IA com módulos encadeados): consegue localizar com precisão um módulo que falhou e reescrever o seu prompt, em vez de ajustar todo o sistema.

Quem vai começar primeiro a usá-lo: DSPy como cidadão de primeira classe, e já com código aberto no GitHub

O código do GEPA já foi disponibilizado no GitHub e foi integrado no framework DSPy na forma dspy.GEPA; além disso, é publicado separadamente como uma biblioteca Python. A equipa de investigação é composta por membros de UC Berkeley, Stanford, Notre Dame, Anthropic e outras instituições; entre os autores do artigo estão Matei Zaharia (cofundador da Databricks e principal autor do DSPy) e Omar Khattab (principal autor do DSPy).

Para a comunidade de programadores, o GEPA oferece uma nova solução para o problema “temos muitos rollouts, mas não sabemos como utilizá-los”: muitas equipas já acumularam milhares de registos de execução de tarefas por agentes, mas, para além de folhear alguns registos quando ocorre um erro para dar “code bug” (inspeção pontual), não existe um método sistemático para transformar esses registos em melhoria do modelo. O próximo ponto de observação é como o GEPA é aplicado de forma prática em workflows empresariais de agentes (como automação de atendimento ao cliente e correção automática de código) e se surgirá uma implementação equivalente do GEPA fora do framework DSPy.

O artigo Berkeley: análise do GEPA—não atualizar pesos para a IA aprender novas tarefas, vencendo o RL com 35 vezes menos custo de treino—apareceu pela primeira vez na cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A OpenAI Lança o Codex Pets, um Companheiro Virtual com IA e Geração Personalizada

Segundo o Beating, a OpenAI adicionou uma nova funcionalidade “Codex Pets” à aplicação de ambiente de trabalho do Codex, permitindo aos utilizadores gerar e interagir com um companheiro virtual animado. Os utilizadores podem ativar um animal de estimação escrevendo /pet no editor. A funcionalidade funciona como um indicador do estado do agente, mostrando a

GateNews6h atrás

MoonPay Lança o Cartão MoonAgents para Agentes de IA na Rede Mastercard

De acordo com a The Block, a MoonPay lançou a MoonAgents Card na sexta-feira, um cartão de débito Mastercard virtual que converte stablecoins em moeda fiduciária em tempo real no momento do pagamento. O cartão é emitido através da Monavate, uma plataforma de pagamentos regulada e membro principal da Mastercard, em parceria com a Exodus M

GateNews10h atrás

A xAI Lança API de Clonagem de Voz com Suporte a 80+ Vozes em 28 Línguas

De acordo com a PANews, a xAI lançou a sua API de Voice Cloning a 2 de maio, permitindo aos utilizadores criar vozes personalizadas em aproximadamente 2 minutos ou selecionar entre mais de 80 vozes predefinidas que abrangem 28 línguas para aplicações, incluindo assistentes de voz, audiolivros e personagens de jogos. A funcionalidade está atualmente

GateNews11h atrás

A MoonPay lança o MoonAgents Card, uma Mastercard virtual para agentes de IA e utilizadores, na sexta-feira

Segundo a The Block, a MoonPay lançou a MoonAgents Card, um cartão de débito Mastercard virtual para agentes de IA e utilizadores, na sexta-feira. O cartão converte stablecoins em moeda fiduciária no momento do pagamento e pode ser utilizado em qualquer comerciante online a nível global que aceite Mastercard. Emitido através da Monavate, um pagamento regulado

GateNews19h atrás

A MoonPay Lança o Cartão MoonAgents na Rede Mastercard Sexta-feira

De acordo com a The Block, a MoonPay lançou a MoonAgents Card na sexta-feira — um cartão de débito virtual Mastercard que permite a agentes de IA e aos utilizadores gastar stablecoins diretamente a partir de carteiras onchain. O cartão é emitido através da Monavate, uma plataforma global de pagamentos regulamentada e membro principal da Mastercard, em

GateNews22h atrás

Nubank planeia um investimento de 8,2 mil milhões de dólares no Brasil para 2026, duplicando a despesa com IA e expandindo o crédito

De acordo com a Crowdfundinsider, a Nubank anunciou planos para investir 8,2 mil milhões de dólares no mercado brasileiro em 2026, quase duplicando o seu investimento face a dois anos antes. Os fundos irão concentrar-se em sistemas de avaliação de crédito impulsionados por IA, produtos financeiros digitais, expansão de equipas, infraestruturas

GateNews23h atrás
Comentar
0/400
Nenhum comentário