Selon la surveillance de 1M AI News, la fondation à but non lucratif ARC Prize, créée par François Chollet, fondateur de Keras, et Mike Knoop, co-fondateur de Zapier, a publié le benchmark ARC-AGI-3. Contrairement aux deux générations précédentes de tâches de raisonnement statique en grille, ARC-AGI-3 est un ensemble d’environnements interactifs en tour par tour, où l’agent évolue dans un monde en grille de 64×64 avec 16 couleurs, sans recevoir d’instructions ni d’objectifs, et doit explorer l’environnement de manière autonome, déduire les règles et les conditions de victoire, construire un modèle du monde et planifier ses actions.
L’évaluation utilise un mécanisme d « efficacité d’action », où moins de mouvements pour terminer un niveau signifie un score plus élevé, permettant de distinguer la véritable capacité de raisonnement de la simple recherche exhaustive. Chaque environnement a été calibré par des tests humains, confirmant qu’un humain peut le passer du premier coup à 100 %. Les scores des modèles d’IA de pointe au moment de la publication sont :
Le lancement de cette nouvelle version est en partie motivé par des préoccupations concernant la « contamination » des benchmarks précédents. La publication indique que Gemini 3 a utilisé automatiquement dans sa chaîne de raisonnement la relation de correspondance entre couleurs entières et couleurs (par exemple, « 3 = vert ») de ARC-AGI, bien que cette correspondance n’ait jamais été mentionnée dans les prompts, ce qui suggère fortement que les données d’entraînement du modèle couvraient déjà largement les tâches ARC-AGI. ARC-AGI-3, grâce à ses environnements interactifs et à ses mécanismes de découverte d’objectifs autonomes, cherche à résister à ce genre de raccourcis mémoriels. La compétition ARC Prize 2026 offre un total de plus de 2 millions de dollars en prix.