GPT-5.5 重返编程前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准测试

Gate News 消息,4 月 27 日——SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿;随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 “Spud” 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。

在实际测试中,出现了明确的分工。Claude 负责新的项目规划与初始搭建,而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力,但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上,Claude 会自动复刻参考页面布局,但会捏造大量数据;而 Codex 跳过布局,却提供了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而,GPT-5.5 的公告改用了一个名为 “Expert-SWE” 的新基准。原因被藏在细微的说明中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。

关于 Opus 4.7,Anthropic 在发布后一周发表了死后复盘分析,承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降,但这些说法被当作主观观察而否定。此外,Opus 4.7 的新分词器会使 token 使用量最高增加 35%,而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。

DeepSeek V4 被评为 “跟上前沿但并不领先”,将自己定位为封闭源模型中成本最低的替代方案。分析还指出,“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在它自己的语言上赢过了中文模型。”

文章提出了一个关键概念:模型定价应通过 “每任务成本(cost per task)” 来评估,而不是通过 “每 token 成本(cost per token)”。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens),但它使用更少的 tokens 完成相同的任务,因此实际成本未必更高。最初的 SemiAnalysis 数据显示,Codex 的输入到输出比例为 80:1,低于 Claude Code 的 100:1。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

66.3% 的美国高收入雇员在工作中使用 AI 工具,美联储调查显示

根据美联储一项调查,截至 5 月 1 日,年收入超过 20 万美元的美国雇员中,有 66.3% 在过去 12 个月在工作中使用过 AI 工具。在较低收入档中,使用率显著下降:年收入 10 万–20 万美元的为 51.6%,年收入 5 万–10 万美元的为 40.2%,

GateNews20 分钟前

xAI 推出带 100 万令牌上下文窗口的 Grok 4.3 API,输入令牌按每百万令牌 1.25 美元计价

据 BlockBeats 称,xAI 于 5 月 1 日推出 Grok 4.3 API。新模型支持 100 万 token 的上下文窗口,并提供文本输入/输出、多模态能力以及工具调用功能。Grok 4.3 API 定价为每 100 万输入 1.25 美元

GateNews32 分钟前

美国科技巨头预计在 2026 年将投入 $700B 用于 AI 基础设施,远超中国的 1050 亿美元

据南华早报称,今 年美国科技巨头计划在 AI 基础设施上投入超过 7000 亿美元,远超中国同行。谷歌、微软、Meta 和亚马逊占该总额的大部分,而摩根士丹利估计,中国云服务提供商的支出约为 10.5 亿美元

GateNews38 分钟前

华为预计 2026 年 AI 芯片收入将达到 120 亿美元,较 2025 年增长 60%

据路透社报道,华为预计其 2026 年 AI 芯片收入将达到约 120 亿美元,较 2025 年 75 亿美元至少增长 60%。今年的大部分订单来自 Ascend 950PR 处理器,该处理器于 3 月开始大规模量产。该公司计划推出一项

GateNews1小时前

NVIDIA 投资瑞典 AI 法律科技新创 Legora,裘德·洛为全球品牌代言人

英伟达对 Legora 进行 D 轮扩增投资 5,000 万美元,使 Legora 总融资达 6 亿美元、估值 56 亿美元,Atlassian、Adams Street Partners、Insight Partners 参与。Legora 专注 AI 法律科技,提供自动化审查、合约分析与法律研究等工具,ARR 超过 1 亿美元,员工由 40 增至 400。Jude Law 成为全球品牌代言人,广告口号为 Law just got more attractive。

鏈新聞abmedia1小时前
评论
0/400
暂无评论