Google's Gemini 3 Deep Think besar peningkatan: kemampuan penalaran mengalahkan Opus 4.6, GPT-5.2, untuk menjadi "AI yang paling ahli dalam penelitian ilmiah"

動區BlockTempo
BTC4,87%

Google telah merilis pembaruan besar untuk Gemini 3 Deep Think, secara signifikan melampaui Claude Opus 4.6 (68.8%) dan GPT-5.2 (52.9%) dalam tes ARC-AGI-2 sebesar 84.6%, sambil mencapai peringkat “Grandmaster Legendaris” di Codeforces.
(Ringkasan: Model pembelajaran ChatGPT diperkenalkan: senja bimbingan belajar, atau fajar zaman keemasan pendidikan? )
(Suplemen latar belakang: Google secara resmi meluncurkan “Gemini 3”!) Apa yang menarik dari mencapai puncak model AI tercerdas di dunia? )

Indeks artikel ini

  • Tidak hanya ujian, tetapi juga menangkap kesalahan manusia
  • Perubahan kerak dalam pangsa pasar
  • Efek riak pada industri kripto
  • Sains baru saja dimulai

Google hari ini (ke-13) merilis peningkatan besar ke Gemini 3 Deep Think. Dalam tes ARC-AGI-2 (tes penalaran khusus untuk mencegah penghafalan AI dari bank pertanyaan, tidak menguji seberapa banyak yang Anda ketahui, dan apakah Anda dapat meringkas aturan sendiri dari beberapa contoh), Gemini 3 Deep Think mencetak 84,6%.

Sebagai referensi, Claude Opus 4.6 (mode Thinking Max) mencetak skor 68,8%, GPT-5.2 (mode Thinking xhigh) mencetak 52,9%, dan skor rata-rata manusia sekitar 60%.

Yang lebih menakjubkan adalah bahwa pada ARC-AGI-1 asli, Deep Think mencetak 96%, pada dasarnya mendorong tolok ukur ini, yang pernah dianggap sebagai “salah satu ujian tersulit dalam AI”, ke langit-langit.

Deep Think saat ini tersedia untuk pelanggan Google AI Ultra, dan API terbuka untuk perusahaan dalam akses awal.

Tidak hanya ujian, tetapi juga kesalahan manusia

Selain skor berjalan, Google menyebutkan detail dalam pengumuman tersebut: Deep Think berhasil mengidentifikasi celah logis yang sebelumnya tidak ditemukan oleh pengulas saat meninjau makalah matematika yang telah ditinjau oleh manusia. Makalah ini dikonfirmasi oleh matematikawan di Universitas Rutgers.

Pentingnya kasus ini bukan terletak pada kinerja model dalam tes standar, tetapi pada kemampuannya untuk menunjukkan dalam skenario ilmiah terbuka yang nyata. Peer review adalah mekanisme kontrol kualitas inti dalam akademisi, dan jika AI dapat secara konsisten memberikan bantuan yang berharga dalam proses ini, efek akselerasinya pada penelitian ilmiah akan jauh melampaui apa yang dapat diukur dengan tolok ukur apa pun.

Deep Think juga telah mencapai level medali emas di bagian tes tertulis Olimpiade Fisika Internasional dan Olimpiade Kimia 2025, dengan skor Elo 3.455 di Codeforces, yang sesuai dengan level “Grandmaster Legendaris”, yang hanya sejumlah kecil programmer manusia di dunia yang dapat mencapai level ini.

Dalam “Ujian Terakhir Kemanusiaan”, tolok ukur yang dirancang oleh para ahli di berbagai bidang dan sengaja mempersulit AI untuk menjawab, Deep Think mencetak 48,4% (tanpa menggunakan alat), juga mencetak rekor baru.

Perubahan kerak dalam pangsa pasar

Perlombaan teknologi dari Tiga Besar AI mengubah lanskap pasar. Pangsa pasar ChatGPT telah turun dari 87% pada puncaknya menjadi sekitar 68%, sementara Gemini telah melonjak dari kurang dari 5% menjadi lebih dari 18%, dan Claude dari Anthropic terus mengikis pasar tingkat perusahaan.

Keuntungan unik Google dalam perlombaan ini adalah kemampuannya untuk mendistribusikan. Gemini dibangun ke dalam Android, browser Chrome, Google Workspace, dan mesin pencari, yang berarti bahwa meskipun terikat dengan pesaingnya dalam hal kemampuan model, Google dapat memenangkan pengguna melalui keunggulan saluran.

Tetapi keunggulan distribusinya adalah pedang bermata dua. Jika pengalaman Gemini tidak cukup baik, itu bisa kehilangan kepercayaan pengguna lebih cepat daripada pesaing mana pun karena pengguna “terlibat secara pasif” daripada “dipilih secara aktif.” Pengguna OpenAI secara aktif membayar dan secara alami memiliki toleransi dan kelekatan yang lebih tinggi.

Efek riak pada industri kripto

Setiap peningkatan dalam perlombaan senjata AI mendorong permintaan akan infrastruktur komputasi. Biaya kluster GPU yang diperlukan untuk melatih model mutakhir telah membengkak dari ratusan juta dolar pada tahun 2024 menjadi miliaran dolar pada tahun 2026. Ini juga secara langsung mempengaruhi dua hal.

**Pertama, jalur transformasi penambang Bitcoin.**Ketika keuntungan penambangan dikompresi (JPMorgan Chase & Co. memperkirakan bahwa biaya produksi BTC turun menjadi $ 7,7 juta minggu ini, sementara harga mata uang sekitar 6,6 juta), penambang dengan infrastruktur komputasi skala besar mempercepat peralihan mereka ke layanan komputasi AI.

Perusahaan pertambangan berbiaya tinggi tidak “keluar” tetapi “mengubah karier”, dari menambang Bitcoin hingga pendapatan kontrak yang menyediakan daya komputasi AI.

**Kedua, narasi token AI.**Setiap kali Google, OpenAI, atau Anthropic merilis peningkatan besar, token terkait AI on-chain seperti protokol komputasi terdesentralisasi biasanya mengalami hype jangka pendek.

Tetapi masalah mendasar dari token ini belum berubah: komputasi terdesentralisasi masih jauh dari permintaan untuk pelatihan AI tingkat perusahaan dalam hal latensi dan throughput. Narasi dapat berjalan cepat, tetapi infrastruktur tidak dapat mengimbangi kecepatan narasi.

Tiebreaker sains baru saja dimulai

Peningkatan ke Deep Think mendorong Google kembali ke posisi terdepan dalam perlombaan AI, setidaknya di bidang penalaran dan sains. Tetapi jika Anda melihat lebih dekat pada kata-kata pengumuman Google, Anda akan melihat pergeseran halus dalam posisi: alih-alih menekankan “AI tujuan umum yang paling cerdas”, itu berulang kali menyebutkan “dibuat untuk sains.”

Karena tolok ukur AI tujuan umum menjadi lebih ramai dan sulit dibedakan, “AI saya dapat membantu Anda melakukan penelitian ilmiah” adalah proposisi nilai yang lebih persuasif daripada “AI saya memiliki skor berjalan tertinggi.” Jika Deep Think benar-benar dapat membantu dalam tinjauan sejawat, mempercepat penemuan obat, atau menemukan solusi yang terlewatkan manusia dalam simulasi fisika, itu akan lebih masuk akal daripada daftar tolok ukur apa pun.

Masalahnya adalah bahwa jarak antara “dapat mendapat skor tinggi pada tolok ukur” hingga “dapat membantu manusia secara andal dalam skenario ilmiah nyata” mungkin lebih jauh dari yang disarankan Google, bagaimanapun juga, tolok ukur memiliki jawaban standar, sains tidak.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Pertemuan Menteri Energi G7 akan diadakan malam ini pukul 20:45, minyak Brent naik ke 88,8 dolar

Gate News berita, 10 Maret, pejabat Uni Eropa menyatakan bahwa Pertemuan Menteri Energi Grup Tujuh (G7) akan diadakan hari ini pukul 13:45 waktu Eropa Tengah (20:45 WIB malam ini). Kemarin (9 Maret) malam, pejabat G7 menyatakan bahwa dalam pertemuan menteri keuangan G7 yang diadakan hari Senin, telah tercapai konsensus luas untuk tidak sementara waktu melepaskan cadangan minyak. Data pasar menunjukkan bahwa minyak mentah Brent saat ini diperdagangkan di angka 88,8 dolar AS, naik 3% dalam hari ini; minyak mentah WTI saat ini diperdagangkan di angka 86,4 dolar AS, naik 1,6% dalam hari ini.

GateNews8menit yang lalu

Seekor paus besar melakukan posisi panjang pada kontrak indeks S&P 500 selama masa penutupan pasar saham AS, dengan ukuran posisi lebih dari 1,2 juta dolar AS

10 Maret, alamat 0x58c terus membuka posisi panjang pada S&P 500 dengan leverage 20 kali selama pasar saham AS tutup, dengan ukuran posisi mencapai 1 juta dolar AS. Selain itu, alamat tersebut juga menempatkan posisi panjang pada Russell 2000 dan portofolio lindung nilai minyak mentah, menunjukkan pandangan bullish terhadap pasar saham AS dan minyak mentah.

GateNews20menit yang lalu

SharpLink rugi bersih sebesar 7,34 miliar dolar AS: bisnis staking ETH mencapai rekor tertinggi, institusi meningkatkan alokasi investasi

Perusahaan SharpLink mengalami kerugian bersih sebesar 734,6 juta dolar AS pada tahun keuangan 2025, terutama disebabkan oleh biaya akuntansi non-tunai dan kerugian unrealized akibat penurunan harga ETH. Meskipun bisnis staking berkinerja baik dan pendapatan operasional meningkat secara signifikan, indikator ETH per saham tidak menunjukkan kenaikan yang jelas, dan proporsi kepemilikan institusional meningkat. Pasar memiliki pandangan yang berbeda tentang hal ini, dan perkembangan di masa depan bergantung pada kenaikan harga ETH.

GateNews26menit yang lalu

Prakiraan Data CPI: Bitcoin mendekati resistansi kunci di $70.000, pasar kripto berpotensi mengalami volatilitas yang tajam

Seiring data CPI AS yang akan segera dirilis, pasar cryptocurrency memasuki keadaan menunggu. Bitcoin setelah mengalami koreksi, harganya mendekati 70.000 dolar AS, suasana pasar membaik, tetapi menghadapi level resistensi penting jangka pendek. Data CPI akan menjadi faktor utama dalam fluktuasi pasar jangka pendek.

GateNews36menit yang lalu

Ahli Rusia: Harga minyak global dalam jangka pendek mungkin turun ke $100, dalam jangka panjang berpotensi naik ke $160

Gate News Berita, 10 Maret, ahli Rusia Ikbal Guliyev menyatakan bahwa dalam beberapa hari ke depan, jika kelompok Tujuh membuat keputusan positif untuk melepaskan cadangan tambahan, harga minyak (harga futures minyak mentah internasional) mungkin akan turun ke sekitar 100 dolar AS per barel. Namun, pasar kemudian akan kembali menghadapi risiko geopolitik, dan pasokan aktual akan mengalami kekurangan. Guliyev berpendapat bahwa jika kekurangan pasokan berlangsung dalam jangka panjang, harga minyak bisa mencapai 150-160 dolar AS per barel.

GateNews46menit yang lalu

Peringatan TradFi Naik: AAPL(Apple Inc.) Bergerak Naik Melebihi 0.12%

Berita Gate: Menurut data terbaru Gate TradFi data, AAPL(Apple Inc.) telah melonjak sebesar 0.12% dalam waktu yang singkat. Volatilitas saat ini secara signifikan lebih tinggi dibandingkan rata-rata terbaru, yang menunjukkan peningkatan aktivitas pasar.

GateNews49menit yang lalu
Komentar
0/400
Tidak ada komentar