Manusia menyelesaikan semua level, AI tertinggi 0,37%: ARC-AGI-3 menguji kecerdasan agen dengan "permainan yang tidak diketahui"

BlockBeatNews

Menurut pemantauan 1M AI News, yayasan nirlaba ARC Prize yang didirikan oleh François Chollet, pendiri Keras, dan Mike Knoop, salah satu pendiri Zapier, merilis pengujian standar ARC-AGI-3. Berbeda dengan dua generasi sebelumnya dari tugas inferensi grid statis, ARC-AGI-3 adalah serangkaian lingkungan interaktif berbasis giliran, di mana Agen beroperasi di dunia grid berwarna 16 warna berukuran 64×64, tanpa menerima instruksi atau petunjuk tujuan apa pun, dan harus secara mandiri menjelajahi lingkungan, menyimpulkan aturan dan kondisi kemenangan, membangun model dunia, serta merencanakan rangkaian tindakan.

Skor menggunakan mekanisme “efisiensi tindakan”, di mana semakin sedikit langkah yang dibutuhkan untuk menyelesaikan level yang sama, semakin tinggi nilainya, untuk membedakan kemampuan inferensi sejati dari pencarian brute-force. Setiap lingkungan telah melalui pengujian kalibrasi manusia, memastikan bahwa 100% dapat diselesaikan oleh manusia saat pertama kali mencoba. Skor model AI terdepan hingga saat peluncuran adalah:

  1. Pratinjau Google Gemini 3.1 Pro: 0,37%
  2. OpenAI GPT 5.4 (High): 0,26%
  3. Anthropic Opus 4.6 (Max): 0,25%
  4. xAI Grok-4.20 (Beta): 0,00%

Peluncuran versi baru sebagian dipicu oleh kekhawatiran bahwa standar sebelumnya telah “terkontaminasi”. Makalah menunjukkan bahwa Gemini 3 secara otomatis menggunakan hubungan pemetaan warna-angka dari ARC-AGI (misalnya “3 = hijau”) dalam rantai inferensi, meskipun petunjuk tidak pernah menyebutkan pemetaan tersebut, yang secara kuat menunjukkan bahwa data pelatihan model telah secara cukup mencakup tugas ARC-AGI. ARC-AGI-3 dirancang untuk melawan shortcut memori semacam ini melalui lingkungan interaktif dan mekanisme penemuan tujuan mandiri. Total hadiah kompetisi ARC Prize 2026 lebih dari 2 juta dolar AS.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar