Anthropic Identifica Três Alterações na Camada de Produto por Detrás da Queda da Qualidade do Claude Code, e Não um Problema do Modelo

Mensagem do Gate News, 23 de abril — A equipa de engenharia da Anthropic confirmou que a degradação da qualidade do Claude Code reportada pelos utilizadores ao longo do último mês resultou de três alterações independentes na camada de produto, e não de problemas na API ou no modelo subjacente. Os três problemas foram corrigidos a 7 de abril, 10 de abril e 20 de abril, respetivamente, com a versão final agora na v2.1.116.

A primeira alteração ocorreu a 4 de março, quando a equipa reduziu o nível de esforço de raciocínio predefinido do Claude Code de “high” para “medium” para abordar picos ocasionais e extremos de latência no Opus 4.6 sob elevada intensidade de raciocínio. Após reclamações generalizadas de utilizadores sobre desempenho reduzido, a equipa reverteu a alteração em 7 de abril. O valor predefinido atual é agora “xhigh” para o Opus 4.7 e “high” para outros modelos.

O segundo problema foi um bug introduzido a 26 de março. O sistema foi concebido para limpar registos antigos de raciocínio após a inatividade na conversa exceder uma hora, de modo a reduzir os custos de recuperação da sessão. No entanto, uma falha na implementação fez com que a limpeza fosse executada repetidamente em cada turno subsequente em vez de uma única vez, levando o modelo a perder progressivamente o contexto de raciocínio anterior. Isso manifestou-se como aumento de esquecimento, operações repetidas e invocações anormais de ferramentas. O bug também resultou em faltas de cache em cada pedido, acelerando o consumo das quotas dos utilizadores. Dois testes internos não relacionados mascararam as condições de reprodução, alargando o processo de depuração para mais de uma semana. Após a correção em 10 de abril, a equipa analisou código problemático usando o Opus 4.7 e verificou que o Opus 4.7 conseguia identificar o bug, enquanto o Opus 4.6 não conseguia.

A terceira alteração foi lançada a 16 de abril em conjunto com o Opus 4.7. A equipa adicionou instruções ao prompt do sistema para reduzir a saída redundante. Testes internos ao longo de várias semanas não mostraram regressão, mas após o lançamento, a interação com outros prompts degradou a qualidade da codificação. Uma avaliação alargada revelou uma queda de 3% no desempenho tanto no Opus 4.6 como no 4.7, levando a uma reversão a 20 de abril.

Estas três alterações afetaram grupos de utilizadores diferentes em momentos diferentes, e o efeito combinado criou uma queda de qualidade generalizada e inconsistente, dificultando o diagnóstico. A Anthropic afirmou que agora será necessário envolver mais funcionários internos para utilizarem a mesma versão pública de compilação que os utilizadores, executarem conjuntos completos de avaliação do modelo para cada modificação de prompt do sistema e implementarem períodos de rollout faseado. Como compensação, a Anthropic repôs as quotas de utilização de todos os utilizadores com subscrição.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Modelos da OpenAI para migrar gradualmente para o chip personalizado Trainium da Amazon, diz Altman; afirma que está a "olhar em frente"

Mensagem de Gate News, 29 de abril — Os modelos da OpenAI a correr no Amazon Web Services' Bedrock irão gradualmente migrar para o Trainium, o chip de IA personalizado da Amazon, de acordo com comentários recentes do CEO da OpenAI Sam Altman e de executivos da AWS. Atualmente, os modelos operam num ambiente misto usando tanto GPUs como Tr

GateNews32m atrás

Altman: A precificação por tokens está a tornar-se obsoleta à medida que o GPT-5.5 muda o foco para a conclusão de tarefas em vez da contagem de tokens

Mensagem de Gate News, 29 de abril — O CEO da OpenAI, Sam Altman, disse numa entrevista a Ben Thompson na Stratechery que a fixação de preços baseada em tokens não é um modelo viável a longo prazo para serviços de IA. Usando o GPT-5.5 como exemplo, Altman observou que, embora o preço por token seja significativamente mais alto do que o do GPT-5.4, o modelo usa muito menos tokens para concluir a mesma tarefa, o que significa que os clientes não se importam com a contagem de tokens — só se importam com se a tarefa é concluída e com o custo total.

GateNews36m atrás

Modelo Ling-2.6-flash da Ant Group disponibilizado em código aberto: 104B Parâmetros Com 7,4B Activos, Atinge Múltiplos Benchmarks SOTA

Mensagem de Gate News, 29 de Abril — Os pesos do modelo Ling-2.6-flash da Ant Group foram agora disponibilizados em código aberto, tendo anteriormente estado apenas disponíveis via API. O modelo apresenta 104 mil milhões de parâmetros totais com 7,4 mil milhões activados por inferência, uma janela de contexto de 256K e licenciamento MIT. Estão disponíveis versões com precisão BF16, FP8 e INT4

GateNews1h atrás

Sam Altman publica capturas de ecrã do Codex em modo duplo, com a separação oficial entre as funções de escritório e de programação

Declaração e captura de ecrã publicadas pelo CEO da OpenAI, Sam Altman, a 29 de abril na plataforma X: o Codex está a lançar uma nova interface de orientação. Quando os utilizadores entram pela primeira vez, têm de escolher entre dois modos, nomeadamente Excelmogging e Codemaxxing. Os utilizadores ativos semanais do Codex já ultrapassam os 4 milhões, e os casos de uso já se estenderam desde a geração de código até a utilizações não técnicas.

MarketWhisper1h atrás

O Codex da OpenAI lança uma interface em dois modos: Excelmogging para trabalho de escritório, Codemaxxing para programação

Mensagem do Gate News, 29 de abril — O CEO da OpenAI, Sam Altman, anunciou hoje no X uma interface do Codex redesenhada, apresentando dois modos distintos para os utilizadores. "Excelmogging" destina-se a tarefas quotidianas de escritório com uma interface simplificada e o slogan "Mesmas ferramentas, interface mais simples," com exemplos de tarefas como

GateNews2h atrás

Mídia norte-americana: um projecto de ordem executiva da Casa Branca permite a entrada do modelo Anthropic Mythos no governo

De acordo com um relatório citado pela Axios em 28 de abril, a Casa Branca está a definir orientações que permitem a qualquer agência federal contornar a avaliação de risco da cadeia de fornecimento (SCRD) da Anthropic, e introduzir novos modelos para utilização pelo governo, incluindo o modelo Mythos da Anthropic. A este respeito, a Casa Branca emitiu um comunicado oficial no qual afirma que quaisquer declarações de política serão publicadas diretamente pelo Presidente, e que quaisquer outras afirmações são pura especulação.

MarketWhisper2h atrás
Comentar
0/400
Nenhum comentário