GPT-5.5 重回编码前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准

Gate News 信息,4 月 27 日——半导体与 AI 分析公司 SemiAnalysis 发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 的编码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月内首次重返编码模型的前沿,且 SemiAnalysis 工程师如今在 Codex 与 Claude Code 之间交替使用,此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为“Spud”的新预训练方法,代表了 OpenAI 自 GPT-4.5 之后首次扩展预训练规模。

在实际测试中,出现了清晰的分工。Claude 负责新的项目规划与初始搭建,而 Codex 擅长处理对推理要求很高的错误修复。Codex 在数据结构理解与逻辑推理方面表现更强,但在推断用户意图是否模糊方面存在困难。在一个单一仪表板任务上,Claude 会自动复刻参考页面布局,但却编造了大量数据;而 Codex 则跳过布局,却交付了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 的 2 月博客文章敦促行业采用 SWE-bench Pro 作为新的编码基准标准。然而,GPT-5.5 的公告改用一个名为“Expert-SWE”的新基准。原因藏在细则里:GPT-5.5 已被 Opus 4.7 在 SWE-bench Pro 上超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比落后明显。

关于 Opus 4.7,Anthropic 在发布一周后发表了死后分析(postmortem),承认 Claude Code 中有三个在 3 月到 4 月持续数周、影响近乎所有用户的错误。此前多名工程师已报告 4.6 版本出现性能下降,但被否定为主观观察。此外,Opus 4.7 的新分词器会使 token 使用量最多增加 35%,而 Anthropic 公开承认了这一点——本质上等同于一次隐藏的涨价。

DeepSeek V4 被评估为“跟上前沿但不在领跑”,将自己定位为闭源模型中最低成本的替代方案。分析还指出:“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在其母语(中文)上击败了中文模型。”

文章引入了一个关键概念:模型定价应通过“每任务成本”来评估,而不是“每 token 成本”。GPT-5.5 的定价是 GPT-5.4 的两倍 (输入 $5,输出 $30 每百万 token),但它用更少的 token 完成相同的任务,因此实际成本不一定更高。初步的 SemiAnalysis 数据显示,Codex 的输入到输出比为 80:1,低于 Claude Code 的 100:1。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

NVIDIA invierte en la startup sueca de legaltech de IA Legora; Jude Law es el embajador global de la marca

Nvidia realiza una ampliación de inversión en la Serie D en Legora por 50 millones de dólares, con lo que la financiación total de Legora alcanza los 600 millones de dólares y una valoración de 5.600 millones de dólares; participan Atlassian, Adams Street Partners e Insight Partners. Legora se centra en tecnología legal para IA y ofrece herramientas como revisión automatizada, análisis de contratos e investigación jurídica. El ARR supera los 100 millones de dólares y el número de empleados crece de 40 a 400. Jude Law se convierte en embajador global de la marca, y el lema publicitario es Law just got more attractive.

ChainNewsAbmediaHace2m

Anthropic abre la beta de seguridad de Claude para usuarios empresariales el 1 de mayo

Según BlockBeats, el 1 de mayo, Anthropic anunció que Claude Security, una herramienta de seguridad de código, ha abierto pruebas beta públicas para usuarios de Claude Enterprise. La herramienta analiza repositorios de código en busca de vulnerabilidades de seguridad, realiza una verificación secundaria para reducir los falsos positivos y automáticamente g

GateNewsHace7m

La oficina laboral de EE. UU. lanza un portal de aprendizaje impulsado por IA para ayudar a las empresas a capacitar talento

El Departamento de Trabajo de EE. UU. lanza durante la Semana Nacional de los Aprendices un portal de aprendizaje con IA, que ofrece recursos de formación integral; convierte la alfabetización en IA en habilidades prácticas mediante un marco de competencias, incluye módulos para múltiples industrias y rutas flexibles, y ayuda a las empresas a integrar la capacitación en IA en el programa de aprendices registrados, mejorando la mano de obra y la competitividad de la industria.

ChainNewsAbmediaHace31m

X lanza una plataforma de anuncios con IA rediseñada en abril de 2026, la mayor actualización en 20 años

Según X, la plataforma inició una implantación gradual de una plataforma publicitaria reconstruida en abril de 2026. El cambio marca la mayor revisión de su sistema de anuncios en aproximadamente 20 años, ya que la empresa traslada más de sus herramientas publicitarias a la IA. El nuevo Ads Manager utiliza segmentación y clasificación basadas en IA, según

GateNewshace1h

Intel se dispara un 114% en abril con resultados sólidos y optimismo por la IA

Según CNBC, las acciones de Intel subieron 114% en abril, marcando su mejor mes registrado, impulsadas por unos beneficios trimestrales más sólidos y el renovado optimismo de los inversores sobre su recuperación relacionada con la IA. Las acciones aumentaron 24% el 24 de abril después de que el CEO Lip-Bu Tan anunciara que los ingresos trimestrales crecieron más de 7%, mientras

GateNewshace1h

Marathon Digital Holdings adquirirá Long Ridge Energy por 1,5 mil millones de dólares para una expansión de centros de datos de IA

Marathon Digital Holdings está adquiriendo Long Ridge Energy por 1,5 mil millones de dólares para ampliar su capacidad de centros de datos de IA. El acuerdo incluye una planta de energía de gas natural de 505 MW y 1.600 acres de terreno en Ohio, lo que proporciona más de 1 GW de capacidad eléctrica para respaldar la infraestructura futura de IA y TI.

GateNewshace1h
Comentar
0/400
Sin comentarios