GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.

При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.

Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).

Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.

DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”

В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Оценка AISI: возможности GPT-5.5 в сетевых атаках и Anthropic Mythos на одном уровне

AISI в мае опубликовала оценку возможностей GPT-5.5 по сетевым атакам: сложность для эксперта 71,4%, Mythos Preview 68,6% — разница в пределах погрешности, без изменений. GPT-5.5 стала вторым после Mythos системой, которая может автоматически завершать «The Last Ones» — 32-шаговое корпоративное проникновение. Также обнаружен universal jailbreak: разработка занимает около 6 часов, он способен обходить фильтрацию вредоносных запросов. В дальнейшем будут наблюдать сроки следующей волны оценок и реакцию OpenAI на это обновление.

ChainNewsAbmedia24м назад

Пентагон заключил секретный контракт на развертывание военной сети с 7 компаниями-разработчиками ИИ: Anthropic по-прежнему исключена

В мае Министерство обороны США объявило о подписании секретных контрактов на военное развертывание сети с семью компаниями, включая SpaceX, OpenAI, Google, NVIDIA, Reflection, Microsoft и Amazon Web Services, а также добавило Oracle, став восьмой стороной. Контракт позволяет запускать модели на самом высоком уровне секретности Impact Level 6/7; ключевые три направления применения — интеграция данных, решения для боевого управления и осведомлённость о ситуации на поле боя, при этом подчёркиваются снижение рисков и недопущение привязки к поставщикам. Anthropic попала в чёрный список из-за отказа принять военные меры безопасности и не получила контракт. AMD напрямую не указана: графические процессоры поставляют NVIDIA и другие. В дальнейшем следует отслеживать, пойдёт ли Anthropic на уступки, а также роль новых участников вроде Reflection.

ChainNewsAbmedia26м назад

Cerebras нацелена на IPO $4B с оценкой около $40 млрд

Базирующаяся в Силликон-Вэлли (Калифорния) компания по производству ИИ-чипов Cerebras Systems ищет до 4 миллиардов долларов в рамках IPO, которое может оценить компанию примерно в 40 миллиардов долларов, сообщает Bloomberg. Формальный маркетинг может начаться уже 4 мая, при этом банкам поступили более 10 миллиардов долларов в виде заявок от институциональных инвесторов на...

CryptoFrontier28м назад

Китайские компании в сфере ИИ рассматривают демонтаж «красных фишек» после остановки приобретения Manus компанией Meta

По данным Beating, Национальная комиссия по развитию и реформам Китая остановила сделку по приобретению Meta за 2 миллиарда долларов компании Manus — разработчика AI-агентов, что побудило Комиссию по регулированию ценных бумаг Китая ужесточить требования к одобрению листинга в Гонконге для компаний с red-chip структурой (китайских компаний, владеющих внутренними активами th

GateNews1ч назад

Маск завершает трёхдневные показания в судебном иске против OpenAI, ссылаясь на требование о возмещении ущерба в размере 130—150 млрд долларов

По сообщениям нескольких СМИ, Илон Маск завершил три дня дачи показаний в своем иске против OpenAI 28–30 апреля, при этом суммарная длительность его показаний составила более 7 часов. Маск, который в 2015 году вместе с сооснователями основал OpenAI при первоначальных инвестициях в 38 миллионов долларов, заявил, что компания отказалась от своей некоммерческой m

GateNews2ч назад

Meta приобретает робототехнический стартап по ИИ Assured Robot Intelligence 1 мая

По данным Bloomberg, Meta приобрела Assured Robot Intelligence — стартап в сфере AI-робототехники с офисами в Сан-Диего и Нью-Йорке — 1 мая. Приобретённая команда, включая сооснователей Lerrel Pinto и Xiaolong Wang, присоединится к Meta Superintelligence Labs и будет работать с Meta Robotics Studio. Финансовые

GateNews2ч назад
комментарий
0/400
Нет комментариев