GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código “Spud” e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex ignorou o layout mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos (77.8%), ainda não lançado da Anthropic.

Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6 mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhar o ritmo da fronteira mas não liderar,” posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que “o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade,” comentando que “o Claude venceu o modelo chinês na sua própria língua.”

O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por “custo por tarefa” e não por “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por milhão de tokens), mas conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

O assessor de Musk revela a licitação $974B da xAI por ativos sem fins lucrativos da OpenAI em tribunal, suscitando nova análise

De acordo com o testemunho de Jared Birchall no 4.º dia do processo de Musk contra a OpenAI, a proposta de xAI no valor de 974 mil milhões de dólares pelos activos sem fins lucrativos da OpenAI tinha como objectivo impedir que Sam Altman subvalorizasse os activos durante a reestruturação da OpenAI. No entanto, a juíza Yvonne Gonzalez Rogers questionou como é que Birchall poderia apresentar uma proposta de 974 mil milhões de dólares

GateNews1h atrás

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4.º dia do julgamento

Segundo a Beating e a The Verge, no 4.º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI tinha usado destilação para melhorar os seus modelos com tecnologia da OpenAI. Musk afirmou inicialmente que «quase todas as empresas de IA fazem isto», mas quando lhe pediram uma resposta direta, reconheceu

GateNews1h atrás

66,3% dos trabalhadores americanos com rendimentos elevados utilizam ferramentas de IA no trabalho, mostra um inquérito da Reserva Federal

De acordo com um inquérito da Reserva Federal, 66,3% dos trabalhadores nos EUA com rendimentos superiores a 200.000 USD anuais já utilizaram ferramentas de IA no trabalho nos últimos 12 meses, à data de 1 de maio. Entre os escalões de rendimentos mais baixos, as taxas de utilização diminuem significativamente: 51,6% para os que auferem entre 100.000 USD e 200.000 USD, 40,2% para os que ganham entre 50.000 USD e 100.000 USD,

GateNews1h atrás

xAI lança a API do Grok 4.3 com uma janela de contexto de 1 milhão de tokens a 1,25 dólares por milhão de tokens de entrada

De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 a 1 de maio. O novo modelo suporta uma janela de contexto de 1 milhão de tokens e oferece funcionalidades de entrada/saída de texto, capacidades multimodais e chamadas de ferramentas. A API do Grok 4.3 tem um preço de $1,25 por milhão de entradas

GateNews1h atrás

As gigantes tecnológicas dos EUA vão gastar $700B em infraestruturas de IA em 2026, muito acima dos 105 mil milhões de dólares da China

De acordo com o South China Morning Post, as gigantes tecnológicas dos EUA estão preparadas para gastar mais de 700 mil milhões de dólares em infraestruturas de IA este ano, muito acima dos seus pares chineses. Google, Microsoft, Meta e Amazon respondem pela maior parte desse total, enquanto a Morgan Stanley estimou que os fornecedores de cloud chineses iriam gastar cerca de 105 mil milhões de dólares

GateNews1h atrás

A Huawei prevê que a receita dos seus chips de IA em 2026 atinja 12 mil milhões de dólares, acima 60% face a 2025

De acordo com a Reuters, a Huawei espera que as receitas dos seus chips de IA para 2026 atinjam aproximadamente 12 mil milhões de dólares, representando um aumento de pelo menos 60% face aos 7,5 mil milhões de dólares em 2025. A maior parte das encomendas deste ano é para o processador Ascend 950PR, que entrou em produção em massa em março. A empresa planeia lançar um

GateNews2h atrás
Comentar
0/400
Nenhum comentário