Claude Fable 5 regressou online no dia 1 de julho, e duas plataformas de benchmarking de IA publicaram avaliações de desempenho conflituantes no mesmo dia. BridgeBench reportou que a pontuação de depuração do Claude Fable 5 colapsou de 86,2 para 25,9 após a reintegração, enquanto a Arena.AI considerou o desempenho praticamente inalterado através de milhares de votos cegos de preferência humana. A divergência decorre do novo classificador de segurança da Anthropic, que encaminha a maioria das tarefas de programação e depuração para o Claude Opus 4.8, em vez de permitir que o Fable 5 as trate diretamente. A Anthropic reconheceu que o classificador produz falsos positivos em tarefas de programação rotineiras. A empresa implementou o classificador conservador como condição para a reintegração do Fable 5, na sequência de uma demonstração de vulnerabilidade de segurança reportada por investigadores da Amazon.
A BridgeMind voltou a executar o seu conjunto completo de programação na versão de 1 de julho do Fable 5 no dia em que este regressou. O BridgeBench testa tarefas de programação do mundo real em várias categorias, incluindo depuração, refatorização e resistência a alucinações, pontuadas de 0 a 100 com base no desempenho do modelo em cada categoria. A depuração caiu de 86,2 para 25,9, a refatorização de 73,6 para 38,4 e a resistência a alucinações de 75,9 para 61,7. Das 12 tarefas de depuração em TypeScript, apenas três chegaram efetivamente ao Fable 5. As restantes nove foram intercetadas pelo novo classificador de segurança da Anthropic e redirecionadas para o Claude Opus 4.8. O BridgeBench pontua cada fallback como zero, porque o modelo que respondeu não era o que estava a ser avaliado. O classificador foi treinado para bloquear a técnica de jailbreak reportada pela Amazon que levou o Fable 5 a identificar e demonstrar vulnerabilidades de software. Depurar TypeScript parece suficientemente semelhante a trabalho de segurança para o classificador, fazendo com que o fallback seja acionado constantemente.
A Arena.AI abordou a mesma questão sob uma perspetiva diferente. A plataforma recolhe milhares de votos cegos de preferência humana em várias categorias — texto, visão, documento, código e agente — e classifica os modelos usando pontuação Elo. Quando dois modelos competem anonimamente e os humanos escolhem um vencedor, a pontuação reflete a qualidade real percebida, não o encaminhamento da infraestrutura. A comparação antes e depois mostrou o Fable 5 a manter-se maioritariamente estável. O código frontend caiu de 1650 para 1623 Elo — uma diferença que a Arena notou estar dentro do intervalo de confiança, à medida que os dados continuam a acumular-se. O desempenho em documentos melhorou 34 pontos. O texto especializado subiu 25. A escrita criativa subiu ligeiramente 9. As categorias que diminuíram — Programação a -18, prompts difíceis a -3 — são precisamente onde o classificador tem maior probabilidade de intercetar o prompt antes de o Fable responder. Quando o Fable 5 realmente trata da tarefa, ainda tem o desempenho do Fable 5. Os utilizadores comuns que fazem escrita criativa, análise de documentos, investigação e consultas de texto a nível especializado provavelmente notarão pouca ou nenhuma diferença. Essas são as categorias onde a Arena.AI mostra desempenho estável ou melhorado. Os programadores que trabalham em áreas adjacentes à segurança — programação de gestão de memória, qualquer coisa que toque em palavras como vulnerabilidade, exploit, hook ou fix — encontrarão o fallback regularmente.
A Anthropic afirmou que os classificadores irão melhorar ao longo do tempo, reconhecendo que atualmente lançam uma rede demasiado larga. A proibição original surgiu depois de investigadores da Amazon terem encontrado uma técnica para fazer o Fable identificar e demonstrar vulnerabilidades de software, e o governo dos EUA tratou isso como uma ameaça à segurança nacional. A solução foi tornar o classificador suficientemente conservador para detetar isso e tudo ao redor, e depois ajustá-lo mais tarde. A Anthropic não deu uma data prevista para quando isso irá acontecer.
O que causou a queda da pontuação de depuração do Claude Fable 5 de 86,2 para 25,9 após 1 de julho? A queda resultou do novo classificador de segurança da Anthropic ter encaminhado nove das doze tarefas de depuração para o Claude Opus 4.8, em vez de permitir que o Fable 5 as tratasse. O BridgeBench pontua cada fallback como zero porque o modelo avaliado não respondeu. O classificador foi implementado para bloquear a técnica de jailbreak reportada pela Amazon que levou o Fable 5 a demonstrar vulnerabilidades de software.
Como é que os testes de preferência humana da Arena.AI diferiram dos resultados do BridgeBench? A Arena.AI recolheu milhares de votos cegos de preferência humana nas categorias de texto, visão, documento, código e agente. A plataforma considerou o desempenho do Fable 5 maioritariamente estável em comparação com a versão de junho, com o desempenho em documentos a melhorar 34 pontos e o texto especializado a subir 25 pontos. O código frontend caiu de 1650 para 1623 Elo, uma diferença que a Arena notou estar dentro do intervalo de confiança.
Quando é que a Anthropic vai refinar o classificador de segurança para reduzir os falsos positivos? A Anthropic reconheceu que os novos classificadores produzem falsos positivos em tarefas rotineiras de programação e depuração e afirmou que o sistema será refinado ao longo do tempo. A empresa não deu um prazo para quando as melhorias ocorrerão.
Notícias relacionadas
Ações do KOSPI recuperam para 8000 após caírem para 7300 devido a preocupações com IA.
Claude Fable 5 Apresenta Resultados de Benchmark Conflituosos Após a Reinstauração de 1 de Julho
EUA Levantam Restrições à Exportação dos Modelos de IA Fable 5 e Mythos 5 da Anthropic
Claude Sonnet 5 lançado, preço da API 60% mais barato que o Opus.