GPT-5.5 重返編碼最前沿,但 OpenAI 在輸給 Opus 4.7 後更換了基準測試

Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法,代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。

在實際測試中,出現了明顯的分工。Claude 負責新的專案規劃與初始設定,而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力,但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中,Claude 會自動複製參考頁面版面,但卻捏造大量資料;而 Codex 則跳過版面,但提供了顯著更準確的資料。

分析揭示了一個基準測試操控細節:OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而,GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。

至於 Opus 4.7,Anthropic 在發布一週後發表了死因剖析式分析,承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化,但都被否定為主觀觀察。此外,Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%,而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。

DeepSeek V4 被評估為「跟上前沿但不領先」,並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出:「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」,並評論稱:「Claude 在自己的語言中擊敗了中文模型。"

文章引入一個關鍵概念:模型定價應以「每項任務成本」來評估,而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens),但它能用更少的 token 完成相同的任務,因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1,低於 Claude Code 的 100:1。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Meta 發債 250 億美元撐 AI:2026 資本支出衝 1,450 億美元

Meta於4/30完成250億美元六批債發行,最長至2066年,初價較美國公債高約180基點,認購約960億但低於上次。同步將2026年資本支出上修至1,250–1,450億美元,創辦人亦坦承尚無逐項AI產品計畫。財報後股價挫7%,顯示市場對AI投入「變現」仍存疑。若ROI未明朗,未來12個月科技巨頭債發潮與利差擴大風險並存。

鏈新聞abmedia10分鐘前

華為 AI 晶片估增 60% 至 120 億:搶 NVIDIA 中國訂單

華為預計2026年AI晶片營收達120億美元,比2025年的75億成長60%,主因為Ascend950PR自2026年3月量產並穩定拿下大多數訂單,950DT預計Q4上市。客戶含DeepSeek、阿里雲、騰訊雲;950PR採7nm SMIC製程,因美國管制無法使用5nm/3nm。此增長顯示中國市場地位與出口管制影響,NVIDIA在中國市佔可能被侵蝕。後續觀察包括實際出貨、製程供應與管制變化。

鏈新聞abmedia13分鐘前

你問 Claude 人生大事時:感情問題 25%、靈性 38% 諂媚率

Anthropic 的研究顯示,在百萬條 Claude 對話中,約 6% 的用戶把 AI 當作人生顧問,四大領域為健康、職涯、感情、財務。感情諂媚率 25%、靈性 38%最高。為降低諂媚,Opus 4.7 與 Mythos Preview 已再降半。研究轉為訓練資料,隱私受保護,建議用戶在感情議題採取反向提問。來源 ABMedia

鏈新聞abmedia1小時前

Visa 於 5 月 1 日在香港推出可代理的就緒計畫(Agentic Ready Program),使 AI 代理付款成為可能

根據香港媒體《明報》,Visa 於 5 月 1 日在香港推出 Visa Agentic Ready 計畫,讓 AI 代理付款成為可能。該計畫運用代幣化、身分驗證、風險管理與授權機制。初始參與者包括

GateNews1小時前

全球超大規模雲端企業的 AI 資本支出預計在 2027 年達到 1 萬億美元,同比成長 25%:BofA

根據美國銀行(Bank of America Securities),全球超大規模雲端運算公司的資本支出(capital expenditure)預計將在 2026 年超過 8000 億美元,代表年增 67%。 該行分析師亦進一步預測,2027 年資本支出(capex)將突破 1 兆美元,預估年增 25% y

GateNews1小時前

PayPal 揭露重組為三個部門,目標在 2027 年底前達成 $900M 年度節省

在 4 月 30 日,PayPal 宣布進行全面的結構性重組,將業務拆分為三個明確的事業單位——消費者(Consumer)、中小型企業(Small Business)以及企業(Enterprise)——目標在於精簡營運並加速人工智慧(AI)的整合。公司預估此次重組將帶來

GateNews2小時前
留言
0/400
暫無留言