Le score de débogage de Claude Fable 5 chute de 86,2 à 25,9 après la réintégration du 1er juillet.

Claude Fable 5 est revenu en ligne le 1er juillet, et deux plateformes de benchmarking IA ont publié des évaluations de performances contradictoires le même jour. BridgeBench a rapporté que le score de débogage de Claude Fable 5 s'est effondré de 86,2 à 25,9 après sa réintégration, tandis qu'Arena.AI a constaté que les performances restaient largement inchangées à travers des milliers de votes de préférence humaine en aveugle. La divergence provient du nouveau classificateur de sécurité d'Anthropic qui oriente la plupart des tâches de codage et de débogage vers Claude Opus 4.8 plutôt que de permettre à Fable 5 de les traiter directement. Anthropic a reconnu que le classificateur produit des faux positifs sur les tâches de codage courantes. L'entreprise a déployé le classificateur conservateur comme condition de la réintégration de Fable 5 après une démonstration de vulnérabilité de sécurité rapportée par les chercheurs d'Amazon.

BridgeBench enregistre de fortes baisses de score dans toutes les catégories de codage

BridgeMind a réexécuté sa suite complète de codage sur la version du 1er juillet de Fable 5 le jour de son retour. BridgeBench teste des tâches de codage réelles dans des catégories incluant le débogage, le refactoring et la résistance aux hallucinations, notées de 0 à 100 sur la façon dont le modèle termine chaque catégorie. Le débogage est passé de 86,2 à 25,9, le refactoring de 73,6 à 38,4 et la résistance aux hallucinations de 75,9 à 61,7.

Sur 12 tâches de débogage TypeScript, seules trois ont réellement atteint Fable 5. Les neuf restantes ont été interceptées par le nouveau classificateur de sécurité d'Anthropic et redirigées vers Claude Opus 4.8. BridgeBench note chaque repli à zéro, car le modèle qui a répondu n'était pas celui évalué. Le classificateur a été entraîné pour bloquer la technique de jailbreak rapportée par Amazon qui a amené Fable 5 à identifier et démontrer des vulnérabilités logicielles. Déboguer du TypeScript ressemble suffisamment à du travail de sécurité pour que le classificateur déclenche constamment le repli.

Les votes de préférence humaine d'Arena.AI montrent des performances stables à améliorées

Arena.AI a examiné la même question sous un angle différent. La plateforme collecte des milliers de votes de préférence humaine en aveugle dans plusieurs catégories — texte, vision, document, code et agent — et classe les modèles à l'aide du score Elo. Lorsque deux modèles s'affrontent anonymement et que les humains choisissent un gagnant, le score reflète la qualité perçue réelle, et non le routage de l'infrastructure.

La comparaison avant-après a montré que Fable 5 tenait largement sa position. Le code frontend est passé de 1650 à 1623 Elo — une différence qu'Arena a notée comme étant dans l'intervalle de confiance alors que les données continuent de s'accumuler. Les performances sur les documents se sont améliorées de 34 points. Le texte expert a augmenté de 25. L'écriture créative a légèrement augmenté de 9. Les catégories qui ont diminué — Codage à -18, invites difficiles à -3 — sont précisément celles où le classificateur est le plus susceptible d'intercepter l'invite avant que Fable ne puisse répondre.

Lorsque Fable 5 gère réellement la tâche, il fonctionne toujours comme Fable 5. Les utilisateurs généralistes qui font de l'écriture créative, de l'analyse de documents, de la recherche et des requêtes textuelles de niveau expert ne remarqueront probablement que peu ou pas de différence. Ce sont les catégories où Arena.AI montre des performances stables ou améliorées. Les développeurs travaillant dans un domaine adjacent à la sécurité — codage de la gestion de la mémoire, tout ce qui touche à des mots comme vulnérabilité, exploit, hook ou correctif — rencontreront régulièrement le repli.

Anthropic reconnaît les faux positifs sur le travail de codage courant

Anthropic a déclaré que les classificateurs s'amélioreront avec le temps, reconnaissant qu'ils jettent actuellement un filet trop large. L'interdiction initiale est survenue après que des chercheurs d'Amazon ont trouvé une technique pour amener Fable à identifier et démontrer des vulnérabilités logicielles, et le gouvernement américain a traité cela comme une menace pour la sécurité nationale. La solution a été de rendre le classificateur suffisamment conservateur pour attraper cela et tout ce qui l'entoure, puis de le régler plus tard. Anthropic n'a donné aucune date cible pour quand cela se produira.

FAQ

Qu'est-ce qui a causé la chute du score de débogage de Claude Fable 5 de 86,2 à 25,9 après le 1er juillet ?

La chute a résulté du nouveau classificateur de sécurité d'Anthropic qui a redirigé neuf des douze tâches de débogage vers Claude Opus 4.8 au lieu de permettre à Fable 5 de les traiter. BridgeBench note chaque repli à zéro car le modèle évalué n'a pas répondu. Le classificateur a été déployé pour bloquer la technique de jailbreak rapportée par Amazon qui a amené Fable 5 à démontrer des vulnérabilités logicielles.

En quoi les tests de préférence humaine d'Arena.AI différaient-ils des résultats de BridgeBench ?

Arena.AI a collecté des milliers de votes de préférence humaine en aveugle dans les catégories texte, vision, document, code et agent. La plateforme a constaté que les performances de Fable 5 étaient globalement stables par rapport à la version de juin, avec une amélioration des performances sur les documents de 34 points et une hausse de 25 points pour le texte expert. Le code frontend est passé de 1650 à 1623 Elo, une différence qu'Arena a notée comme étant dans l'intervalle de confiance.

Quand Anthropic affinera-t-il le classificateur de sécurité pour réduire les faux positifs ?

Anthropic a reconnu que les nouveaux classificateurs produisent des faux positifs sur les tâches courantes de codage et de débogage et a déclaré que le système sera affiné au fil du temps. L'entreprise n'a donné aucun calendrier pour la réalisation de ces améliorations.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire