Menurut pemantauan 1M AI News, yayasan nirlaba ARC Prize yang didirikan oleh François Chollet, pendiri Keras, dan Mike Knoop, salah satu pendiri Zapier, merilis pengujian standar ARC-AGI-3. Berbeda dengan dua generasi sebelumnya dari tugas inferensi grid statis, ARC-AGI-3 adalah serangkaian lingkungan interaktif berbasis giliran, di mana Agen beroperasi di dunia grid berwarna 16 warna berukuran 64×64, tanpa menerima instruksi atau petunjuk tujuan apa pun, dan harus secara mandiri menjelajahi lingkungan, menyimpulkan aturan dan kondisi kemenangan, membangun model dunia, serta merencanakan rangkaian tindakan.
Skor menggunakan mekanisme “efisiensi tindakan”, di mana semakin sedikit langkah yang dibutuhkan untuk menyelesaikan level yang sama, semakin tinggi nilainya, untuk membedakan kemampuan inferensi sejati dari pencarian brute-force. Setiap lingkungan telah melalui pengujian kalibrasi manusia, memastikan bahwa 100% dapat diselesaikan oleh manusia saat pertama kali mencoba. Skor model AI terdepan hingga saat peluncuran adalah:
Peluncuran versi baru sebagian dipicu oleh kekhawatiran bahwa standar sebelumnya telah “terkontaminasi”. Makalah menunjukkan bahwa Gemini 3 secara otomatis menggunakan hubungan pemetaan warna-angka dari ARC-AGI (misalnya “3 = hijau”) dalam rantai inferensi, meskipun petunjuk tidak pernah menyebutkan pemetaan tersebut, yang secara kuat menunjukkan bahwa data pelatihan model telah secara cukup mencakup tugas ARC-AGI. ARC-AGI-3 dirancang untuk melawan shortcut memori semacam ini melalui lingkungan interaktif dan mekanisme penemuan tujuan mandiri. Total hadiah kompetisi ARC Prize 2026 lebih dari 2 juta dolar AS.