Google 的 Gemini 3 Deep Think 大升級:推理能力碾壓 Opus 4.6、GPT-5.2,要做「最會科研的 AI」

動區BlockTempo
BTC-0.6%

Google 發布 Gemini 3 Deep Think 重大更新,在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%),同時在 Codeforces 達到「傳奇宗師」等級。
(前情提要:ChatGPT 學習模式問世:家教的黃昏,還是黃金教育時代的黎明?)
(背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)

本文目錄

  • 不只會考試,還會抓人類的錯
  • 市場份額的地殼變動
  • 對加密產業的漣漪效應
  • 科學決勝局才剛開始

Google 今(13)日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2(一個專門防止 AI 背題庫的推理測試,不考你知道多少,考你能不能從幾個範例中自己歸納出規則)測試中,Gemini 3 Deep Think 拿下了 84.6%。

作為參照,Claude Opus 4.6(Thinking Max 模式)拿到 68.8%,GPT-5.2(Thinking xhigh 模式)是 52.9%,而人類平均約 60%。

更驚人的是,在原版 ARC-AGI-1 上,Deep Think 拿到 96%,基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。

Deep Think 目前開放給 Google AI Ultra 訂閱用戶,API 則面向企業開放早期存取。

不只會考試,還會抓人類的錯

跑分之外,Google 在公告中提到了一個細節:Deep Think 在審閱一篇經過人類同行評審的數學論文時,成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學(Rutgers University)的數學家確認。

這個案例的重要性在於,它不是模型在標準化測試中的表現,而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制,如果 AI 能穩定地在這個環節提供有價值的輔助,它對科學研究的加速效應將遠超任何跑分所能衡量。

Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準,在 Codeforces 上的 Elo 評分為 3,455,對應「傳奇宗師」等級,全球僅極少數人類程式設計師能達到這個層級。

而在「人類最後的考試」(Humanity’s Last Exam)這個由各領域專家設計、刻意讓 AI 難以作答的基準上,Deep Think 拿到 48.4%(不使用工具),也創下新紀錄。

市場份額的地殼變動

AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%,而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。

Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中,這意味著即使在模型能力上與對手打平,Google 也能透過渠道優勢贏得用戶。

但分發優勢是雙面刃。如果 Gemini 的體驗不夠好,它可能會比任何競品更快地失去用戶信任,因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的,天然有更高的容忍度和黏性。

對加密產業的漣漪效應

AI 軍備競賽的每一次升級,都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別,膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。

**第一,比特幣礦工的轉型路徑。**當挖礦利潤被壓縮(摩根大通本週估算 BTC 生產成本降至 7.7 萬美元,而幣價在 6.6 萬附近),擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。

高成本礦企不是「退出」,而是「轉業」,從挖比特幣變成提供 AI 算力的合約收入。

**第二,AI 代幣的敘事。**每當 Google、OpenAI 或 Anthropic 發布重大升級,鏈上 AI 相關代幣(如去中心化運算協議)通常會出現短期炒作。

但這些代幣的基本面問題始終沒變:去中心化運算在延遲和吞吐量上,距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快,但基礎設施還追不上敘事的速度。

科學決勝局才剛開始

Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置,至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭,會發現一個微妙的定位轉變:它不再強調「最聰明的通用 AI」,而是反覆提及「為科學而生」。

當通用 AI 的基準測試越來越擁擠、差異化越來越難,「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解,這比任何跑分榜單都更有意義。

問題是,從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」,中間的距離可能比 Google 暗示的更遠,畢竟基準測試有標準答案,科學沒有。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

美國2月通脹持平,加密貨幣價格亦然

美國2026年2月的通貨膨脹率保持在2.40%的穩定水平,而加密貨幣價格幾乎沒有變動。美國主要股市指數下跌,美元走強,地中海地區緊張局勢升溫。

TheNewsCrypto12分鐘前

IEA 釋儲未有效壓制油價,鏈上 8 名巨鯨反手開多 WTI 原油

3月12日,國際油價上漲,WTI原油達93.3美元/桶,布倫特原油98.8美元/桶。儘管IEA釋儲計劃實施,油價依然堅挺,多位巨鯨選擇追漲開多,資金費率偏空。部分巨鯨已實現盈利。

GateNews47分鐘前

白宮數位負責人:穩定幣收益利多美國銀行業,新資產將流入傳統金融

白宮數位資產顧問委員會執行董事Patrick Wieth支持穩定幣收益的合法性,認為外國投資者將當地貨幣兌換成美國穩定幣時,實際上是為美國銀行體系帶來新的淨資本流入。這一觀點與銀行業對穩定幣搶存款的擔憂形成對立,並引發關於如何平衡金融創新與社區銀行利益的辯論。

Market Whisper1小時前

Michael Saylor 豪言:微策略可消化「超量」比特幣供應

微策略執行董事長Michael Saylor表示,公司可持續購買超過市場賣家的比特幣,顯示其資金實力和長期增持意願。微策略自2020年以來積累738,731枚比特幣,雖然目前市值約500億美元低於560億美元的收購成本,但Saylor強調不受短期波動影響,將繼續增持,影響市場供需結構。

Market Whisper1小時前

BitMine 狂掃 6 萬枚以太幣!Tom Lee 信心喊話:「迷你加密寒冬」即將告終

Bitmine Immersion Technologies 近期大舉購買 60,976 枚以太幣,總價約 1.2 億美元,力挺加密市場。儘管面臨 78 億美元未實現虧損,董事長 Tom Lee 仍積極買進,認為市場已接近底部。公司計畫將所有以太幣投入質押,預估年化收益將達 2.59 億美元,呼籲投資人把握抄底機會。

区块客2小時前

阿曼撤船避險,油價突破百元,比特幣回落至 69K

中東地緣政治衝突加劇,導致國際能源市場挑戰,阿曼撤離油輪以確保安全,油價暴漲至每桶100美元,亞洲股市普遍下跌,比特幣也回落至69,550美元。IEA雖釋出石油儲備,卻難以根本解決供應缺口問題。

鏈新聞abmedia2小時前
留言
0/400
暫無留言