GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5.

Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes.

L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic (77.8%).

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée.

DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. »

L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 (input $5, output $30 par million de tokens), mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

66,3% des employés américains à hauts revenus utilisent des outils d’IA au travail, selon une enquête de la Réserve fédérale

Selon une enquête de la Réserve fédérale, 66,3 % des employés américains gagnant plus de 200 000 dollars par an ont utilisé des outils d'IA au travail au cours des 12 derniers mois au 1er mai. Dans les tranches de revenus plus faibles, les taux d'utilisation diminuent fortement : 51,6 % pour ceux qui gagnent entre 100 000 et 200 000 dollars, 40,2 % pour ceux qui gagnent entre 50 000 et 100

GateNewsIl y a 14m

xAI lance l’API Grok 4.3 avec une fenêtre de contexte de 1 million de tokens pour 1,25 dollar par million de tokens d’entrée

D’après BlockBeats, xAI a lancé l’API Grok 4.3 le 1er mai. Le nouveau modèle prend en charge une fenêtre de contexte de 1 million de tokens et propose des capacités d’entrée/sortie de texte, multimodales ainsi que des fonctions d’appel d’outils. L’API Grok 4.3 est proposée à 1,25 $ par million d’entrées

GateNewsIl y a 26m

Les géants de la tech américaine s’apprêtent à investir $700B en infrastructure d’IA d’ici 2026, dépassant largement les 105 milliards de dollars de la Chine

D’après le South China Morning Post, les géants américains de la tech devraient investir plus de 700 milliards de dollars dans les infrastructures d’IA cette année, bien au-delà des acteurs chinois. Google, Microsoft, Meta et Amazon représentent la majeure partie de ce total, tandis que Morgan Stanley a estimé que les fournisseurs de cloud chinois dépenseraient environ 105 milliards de dollars…

GateNewsIl y a 31m

Huawei prévoit que ses revenus de puces IA pour 2026 atteindront 12 milliards de dollars, soit une hausse de 60 % par rapport à 2025

Selon Reuters, Huawei s’attend à ce que son chiffre d’affaires de puces d’IA pour 2026 atteigne environ 12 milliards de dollars, soit une hausse d’au moins 60 % par rapport aux 7,5 milliards de dollars en 2025. La plupart des commandes de cette année portent sur le processeur Ascend 950PR, entré en production de masse en mars. L’entreprise prévoit de lancer une

GateNewsIl y a 1h

Nvidia investit dans la startup suédoise de legaltech en IA, Legora, et Jude Law en devient l’ambassadeur de marque mondial

Nvidia investit 50 millions de dollars supplémentaires dans le cadre d'un tour d'extension Series D pour Legora, portant le total des levées de fonds de Legora à 600 millions de dollars, avec une valorisation de 5,6 milliards de dollars. Atlassian, Adams Street Partners et Insight Partners participent. Legora se concentre sur la legaltech IA et propose des outils tels que l'examen automatisé, l'analyse des contrats et la recherche juridique, avec un ARR de plus de 100 millions de dollars ; les effectifs sont passés de 40 à 400. Jude Law devient l'ambassadeur mondial de la marque, avec le slogan publicitaire « Law just got more attractive ».

ChainNewsAbmediaIl y a 1h

Anthropic ouvre la version bêta de la sécurité de Claude pour les utilisateurs professionnels le 1er mai

D’après BlockBeats, le 1er mai, Anthropic a annoncé que Claude Security, un outil de sécurité du code, a ouvert des tests bêta publics pour les utilisateurs de Claude Enterprise. L’outil analyse des dépôts de code à la recherche de vulnérabilités de sécurité, effectue une vérification secondaire afin de réduire les faux positifs et automatise le processus de correction.

GateNewsIl y a 1h
Commentaire
0/400
Aucun commentaire