GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.

При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.

Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).

Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.

DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”

В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

xAI запускает API Grok 4.3 с окном контекста 1 млн токенов и ценой $1,25 за миллион входных токенов

По данным BlockBeats, xAI запустила API Grok 4.3 1 мая. Новая модель поддерживает окно контекста в 1 миллион токенов и предлагает текстовый ввод/вывод, мультимодальные возможности и функции вызова инструментов. API Grok 4.3 стоит 1,25 доллара за 1 миллион входных

GateNews11м назад

Крупнейшие технологические компании США планируют потратить $700B на инфраструктуру ИИ в 2026 году, что намного превзойдёт $105B Китая

Согласно South China Morning Post, американские техгиганты планируют потратить на AI-инфраструктуру в этом году более 700 миллиардов долларов, что намного превышает расходы китайских конкурентов. Google, Microsoft, Meta и Amazon обеспечивают большую часть этой суммы, при этом Morgan Stanley оценил, что китайские облачные провайдеры потратят около $105 млрд

GateNews17м назад

Huawei ожидает, что выручка от AI-чипов в 2026 году достигнет 12 миллиардов долларов, что на 60% больше, чем в 2025 году

Reuters: Huawei ожидает, что выручка от ИИ-чипов в 2026 году достигнет примерно 12 миллиардов долларов, что как минимум на 60% больше, чем 7,5 миллиарда долларов в 2025 году. Большая часть заказов в этом году приходится на процессор Ascend 950PR, который вышел на массовое производство в марте. Компания планирует запустить ан

GateNews47м назад

Nvidia инвестирует в шведский AI-юридический стартап Legora, Джуд Лоу стал глобальным амбассадором бренда

Nvidia провела расширительное инвестиционное раундирование Series D в Legora на 50 миллионов долларов, доведя общий объём привлечённых средств Legora до 600 миллионов долларов и оценку до 5,6 миллиарда долларов; в раунде участвуют Atlassian, Adams Street Partners и Insight Partners. Legora фокусируется на AI-юртехе, предоставляя такие инструменты, как автоматизированная проверка, анализ контрактов и юридические исследования; ARR превышает 100 миллионов долларов, а число сотрудников выросло с 40 до 400. Jude Law стал глобальным лицом бренда, а рекламный слоган — Law just got more attractive.

ChainNewsAbmedia1ч назад

Anthropic открывает бета-версию безопасности Claude для корпоративных пользователей 1 мая

Согласно BlockBeats, 1 мая Anthropic объявила, что Claude Security — инструмент для защиты кода — открыла публичное бета-тестирование для пользователей Claude Enterprise. Инструмент сканирует репозитории кода на наличие уязвимостей безопасности, выполняет вторичную проверку для снижения числа ложных срабатываний и автоматически g

GateNews1ч назад

Министерство труда США запустило портал для AI-стажировок, чтобы помогать компаниям обучать персонал

Американское Бюро по трудоустройству запустило на Неделе национального ученичества портал для AI-учеников, предоставляющий ресурсы для обучения «под ключ»: через рамку AI-грамотности он превращается в практические навыки. Платформа предлагает многоотраслевые модули и гибкие маршруты, помогая компаниям встроить AI-обучение в зарегистрированную программу ученичества и повысить уровень кадров и конкурентоспособность отрасли.

ChainNewsAbmedia1ч назад
комментарий
0/400
Нет комментариев