A Anthropic Identifica Três Mudanças na Camada de Produto Por Trás da Queda de Qualidade do Claude Code, e Não um Problema de Modelo

Mensagem do Gate News, 23 de abril — A equipe de engenharia da Anthropic confirmou que a degradação da qualidade do Claude Code relatada pelos usuários no último mês se deveu a três mudanças independentes na camada de produto, e não a problemas de API ou do modelo subjacente. Os três problemas foram corrigidos em 7 de abril, 10 de abril e 20 de abril, respectivamente, com a versão final agora em v2.1.116.

A primeira mudança ocorreu em 4 de março, quando a equipe reduziu o nível de esforço de raciocínio padrão do Claude Code de “high” para “medium” para tratar picos ocasionais de latência extrema no Opus 4.6 sob alta intensidade de raciocínio. Após queixas generalizadas dos usuários sobre desempenho reduzido, a equipe reverteu a mudança em 7 de abril. O padrão atual agora é “xhigh” para o Opus 4.7 e “high” para outros modelos.

O segundo problema foi um bug introduzido em 26 de março. O sistema foi projetado para limpar registros antigos de raciocínio após a inatividade da conversa exceder uma hora, para reduzir custos de recuperação de sessão. Porém, uma falha na implementação fez com que a limpeza fosse executada repetidamente em cada turno subsequente, em vez de uma única vez, fazendo com que o modelo perdesse progressivamente o contexto de raciocínio anterior. Isso se manifestou como aumento da falta de memória, operações repetidas e invocações anormais de ferramentas. O bug também resultou em falhas de cache em toda solicitação, acelerando o consumo do limite de cota do usuário. Dois experimentos internos não relacionados mascararam as condições de reprodução, estendendo o processo de depuração para mais de uma semana. Após a correção em 10 de abril, a equipe revisou o código problemático usando o Opus 4.7 e descobriu que o Opus 4.7 conseguia identificar o bug enquanto o Opus 4.6 não.

A terceira mudança foi lançada em 16 de abril junto com o Opus 4.7. A equipe adicionou instruções ao prompt do sistema para reduzir a saída redundante. Testes internos ao longo de várias semanas não mostraram regressão, mas após o lançamento a interação com outros prompts degradou a qualidade de codificação. Avaliações estendidas revelaram uma queda de desempenho de 3% tanto no Opus 4.6 quanto no 4.7, levando a um rollback em 20 de abril.

Essas três mudanças afetaram grupos de usuários diferentes em momentos diferentes, e seu efeito combinado gerou uma queda de qualidade ampla e inconsistente, complicando o diagnóstico. A Anthropic afirmou que agora será necessário que mais funcionários internos usem a mesma versão pública de build que os usuários, executem conjuntos completos de avaliação do modelo para cada modificação no prompt do sistema e implementem períodos de rollout em etapas. Como compensação, a Anthropic redefiniu as cotas de uso de todos os usuários assinantes.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

DeepSeek Introduz o método de Primitivos Visuais para aprimorar o raciocínio multimodal em 30 de abril

De acordo com o relatório técnico da DeepSeek, em 30 de abril, a empresa apresentou o Visual Primitives, um método que incorpora unidades visuais básicas como pontos e caixas delimitadoras em cadeias de raciocínio para resolver o problema da Lacuna de Referência em tarefas multimodais. O método reduz o consumo de tokens de imagem

GateNews22m atrás

A NVIDIA lança os pesos do modelo flagship Cosmos-Reason2-32B e expande a janela de contexto para 256K tokens

Segundo Beating, a NVIDIA lançou os pesos do Cosmos-Reason2-32B, a versão principal da sua visão de raciocínio em IA física para linguagem visual (VLM, na sigla em inglês) — projetada para ajudar robôs e sistemas de condução autônoma a entenderem princípios espaciais, temporais e físicos. O modelo de 32 bilhões de parâmetros,

GateNews25m atrás

OpenAI revela por que o Codex não pode falar sobre “goblins”: a recompensa por personalidade “nerd” saiu do controle

A OpenAI, no blog oficial, explicou que o Codex não deve falar sobre goblins e outras criaturas, devido a uma preferência por sinais de recompensa em treinamento de personalidade de “nerds”, que usava metáforas com criaturas, causando contaminação entre personalidades e desorientação no RLHF. O episódio veio à tona depois que Barron Roth revelou uma instrução do sistema, e a OpenAI adotou duas estratégias: codificação rígida no curto prazo e eliminação de sinais de recompensa no longo prazo. O caso alerta sobre a fragilidade do design de recompensas, e que auditorias pós-treinamento precisam ser mais detalhadas.

ChainNewsAbmedia1h atrás

A Alibaba abre código do módulo de interpretabilidade Qwen-Scope do Qwen, cobrindo 7 modelos, em 30 de abril

De acordo com a PANews, em 30 de abril, a Qwen, da Alibaba, anunciou a disponibilização em open source do Qwen-Scope, um módulo de interpretabilidade treinado nos modelos das séries Qwen3 e Qwen3.5. O lançamento inclui 7 modelos de linguagem de grande porte em variantes densas e mixture-of-experts, com 14 conjuntos de sparse autoencoder

GateNews2h atrás

Servidores de IA Nvidia B300 batem US$ 1 milhão na China em meio a aperto de oferta

De acordo com a Reuters, os servidores de IA B300 da Nvidia agora são vendidos por aproximadamente 7 milhões de yuans (US$ 1 milhão) na China, impulsionados por uma repressão às redes de contrabando e pela demanda contínua das empresas locais de tecnologia. O preço disparou em relação aos cerca de 4 milhões de yuans (US$ 585.000) no fim de 2025, significativamente

GateNews2h atrás

Lucro operacional da LG CNS sobe 19% no 1T com crescimento de IA e nuvem

De acordo com o Chosun Daily, a LG CNS informou em 30 de abril que o lucro operacional do primeiro trimestre aumentou 19,4% na comparação anual, chegando a 94,2 bilhões de won (US$ 64,1 milhões), impulsionado pela demanda por IA e nuvem. A receita subiu 8,6% para 1,3 trilhão de won (US$ 894 milhões). A unidade de IA e nuvem da empresa gerou 765,4 billi

GateNews3h atrás
Comentário
0/400
Sem comentários