GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como “Spud” e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic (77.8%).

Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhando o ritmo da fronteira, mas não liderando,” posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que “Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade,” comentando que “Claude venceu o modelo chinês na própria língua.”

O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por “custo por tarefa” em vez de “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por um milhão de tokens), mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4º dia do julgamento

De acordo com Beating e The Verge, no 4º dia do julgamento entre Musk e OpenAI, os advogados da OpenAI questionaram se a xAI havia usado destilação para melhorar seus modelos com tecnologia da OpenAI. Musk inicialmente afirmou que “quase todas as empresas de IA fazem isso”, mas, quando foi pressionado por uma resposta direta, reconheceu

GateNews2m atrás

66,3% dos funcionários dos EUA com alta renda usam ferramentas de IA no trabalho, mostra pesquisa do Federal Reserve

De acordo com uma pesquisa do Federal Reserve, 66,3% dos funcionários dos EUA que ganham mais de US$ 200.000 por ano usaram ferramentas de IA no trabalho nos últimos 12 meses, em 1º de maio. Entre faixas de renda mais baixas, as taxas de uso diminuem significativamente: 51,6% para aqueles que ganham US$ 100.000–US$ 200.000, 40,2% para aqueles que ganham US$ 50.000–US$ 100.000,

GateNews21m atrás

xAI lança a API do Grok 4.3 com janela de contexto de 1M tokens a US$ 1,25 por 1 milhão de tokens de entrada

De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 em 1º de maio. O novo modelo oferece uma janela de contexto de 1 milhão de tokens e conta com entrada/saída de texto, recursos multimodais e funcionalidades de chamada de ferramentas. A API do Grok 4.3 custa US$ 1,25 por 1 milhão de entrada

GateNews33m atrás

Gigantes de tecnologia dos EUA devem gastar $700B em infraestrutura de IA em 2026, superando muito os US$ 105B da China

De acordo com o South China Morning Post, gigantes da tecnologia dos EUA devem gastar mais de US$ 700 bilhões em infraestrutura de IA este ano, superando em muito seus pares chineses. Google, Microsoft, Meta e Amazon respondem pela maior parte desse total, enquanto a Morgan Stanley estimou que os provedores de nuvem chineses gastariam cerca de US$ 105 bill

GateNews38m atrás

A Huawei espera que a receita de chips de IA em 2026 atinja US$ 12 bilhões, acima de 60% em relação a 2025

De acordo com a Reuters, a Huawei espera que a receita de suas chips de IA de 2026 chegue a aproximadamente US$ 12 bilhões, representando pelo menos um aumento de 60% em relação aos US$ 7,5 bilhões de 2025. A maior parte dos pedidos deste ano é para o processador Ascend 950PR, que entrou em produção em massa em março. A empresa planeja lançar um

GateNews1h atrás

NVIDIA investe na startup sueca de legaltech de IA, Legora; Jude Law é o embaixador global da marca

A Nvidia faz um investimento de expansão na rodada Series D da Legora no valor de US$ 50 milhões, elevando o total captado da Legora para US$ 600 milhões e a avaliação para US$ 5,6 bilhões. Atlassian, Adams Street Partners e Insight Partners participam. A Legora se concentra em legaltech de IA, oferecendo ferramentas como revisão automatizada, análise de contratos e pesquisa jurídica. O ARR ultrapassa US$ 100 milhões, e o número de funcionários cresce de 40 para 400. Jude Law se torna o porta-voz global da marca, com o slogan publicitário “Law just got more attractive”.

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários