A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

Noticiário da Gate, 23 de abril — A equipe de pesquisa da Perplexity publicou um artigo técnico detalhando sua metodologia de pós-treinamento para agentes de busca na web. A abordagem usa dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e emprega um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer aderência a instruções e consistência de linguagem, seguido de aprendizado por reforço online (RL) para otimizar a acurácia da busca e a eficiência do uso de ferramentas.

A fase de RL aproveita o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de consultas iniciais internas que exigem 2–4 saltos de raciocínio com verificação por múltiplos resolvedores, e dados gerais de conversação baseados em rubricas que convertem requisitos de implantação em condições atômicas objetivamente verificáveis para evitar degradação do comportamento do SFT.

O desenho de recompensa emprega agregação filtrada — as pontuações de preferência só contribuem quando a correção do baseline é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica forem atendidos), impedindo que sinais de alta preferência mascarem erros factuais. As penalidades de eficiência usam ancoragem dentro do grupo, aplicando penalidades suaves às chamadas de ferramenta e ao comprimento de geração que excede o baseline de respostas corretas no mesmo grupo.

A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança desempenho de nível superior em benchmarks de busca. Em FRAMES, atinge 57,3% de acurácia com uma única chamada de ferramenta, superando GPT-5.4 em 5,7 pontos percentuais e Claude Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (quatro chamadas de ferramentas), obtém 73,9% de acurácia a US$ 0,02 por consulta, em comparação com 67,8% de acurácia do GPT-5.4 a US$ 0,085 por consulta e 62,4% de acurácia do Sonnet 4.6 a US$ 0,153 por consulta. Os valores de custo são baseados na precificação pública de API de cada provedor e excluem otimizações de caching.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Oobit lança cartões Visa de agentes de IA com suporte para gastos diretos em USDT

De acordo com o The Block, a Oobit, startup de carteiras lastreadas pela Tether, lançou hoje os “Agent Cards” virtuais, que permitem que agentes de IA gastem USDT diretamente em estabelecimentos compatíveis com Visa, sem conversão de moeda ou aprovação por transação. Cada cartão é atribuído a um único agente e inclui limites de gasto

GateNews51m atrás

AethirClaw Lança CARA, Agente de IA Cripto Pré-configurado e Implantável em 5 Minutos, em 30 de Abril

De acordo com o anúncio oficial da AethirClaw em 30 de abril, a empresa lançou a CARA, um agente de IA cripto pré-configurado, executado na infraestrutura de GPU descentralizada da Aethir. A plataforma oferece mais de 50 habilidades integradas para monitoramento de mercado em tempo real, rastreamento de carteiras de whales, on-chain

GateNews1h atrás

O agente Hermes da Nous Research adiciona um recurso de Curador para retirar automaticamente habilidades não utilizadas após 30 dias

De acordo com a Nous Research, a estrutura Hermes Agent adicionou um recurso de Curator em 29 de abril para gerenciar automaticamente o ciclo de vida das habilidades. O recurso aborda uma limitação anterior em que agentes de IA poderiam acumular habilidades indefinidamente, inchando os prompts do sistema sem remover as que não eram usadas. Curator

GateNews3h atrás

Grok lança modo beta do Imagine Agent com Canvas infinito para fluxos de trabalho criativos de múltiplas etapas

De acordo com relatos monitorados pela Beating, a versão web do Grok está sendo disponibilizada com o Imagine Agent Mode (beta), uma nova ferramenta baseada em agentes criada sobre as capacidades atuais de geração de imagens e vídeos da xAI. A interface substitui a janela de chat tradicional por uma tela infinita e inclui quatro opções predefinidas

GateNews4h atrás

Billions Network se torna o terceiro maior ecossistema de agentes, com mais de 18.000 agentes implantados

De acordo com a BlockBeats, em 30 de abril, a Billions Network se tornou o terceiro maior ecossistema de Agent por quantidade de implantações, superando a Ethereum com mais de 18.000 agents implantados. A rede fica atrás apenas da BNB Chain e da Base. A Billions também sincronizou o recurso de identidade verificada do Agent em @w

GateNews6h atrás

A Ant International conecta 150 milhões de comerciantes por meio de pagamentos com IA

A Ant International disse que sua rede de pagamentos conecta mais de 150 milhões de comerciantes com mais de 2 bilhões de contas de consumidores em todo o mundo, oferecendo suporte a mais de 300 métodos de pagamento em 220 mercados. A empresa processa, em média, mais de 20 milhões de transações por dia e está expandindo-se pela Ásia,

CryptoFrontier9h atrás
Comentário
0/400
Sem comentários