GPT-5.5 повертається на передній край у кодуванні, але OpenAI змінює бенчмарки після поразки від Opus 4.7

Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою “Spud” і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5.

У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані.

Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою “Expert-SWE.” Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos (77.8%) від Anthropic.

Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни.

DeepSeek V4 оцінили як “дотримання темпу з переднім краєм, але без лідерства,” позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що “Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма,” коментуючи, що “Claude переміг китайську модель у її власній мові.”

У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за “вартістю за задачу” замість “вартості за токен.” Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 (input $5, output $30 per million tokens), але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Nvidia інвестує в шведську AI-юридичну tech-стартап-компанію Legora, а Джуд Лоу став глобальним амбасадором бренду

NVIDIA здійснила розширювальну інвестицію в рамках Series D у Legora на 50 млн доларів США, внаслідок чого загальне залучення коштів Legora досягло 600 млн доларів США, а оцінка — 5,6 млрд доларів США. Участь взяли Atlassian, Adams Street Partners та Insight Partners. Legora спеціалізується на AI-юридичних технологіях, надаючи інструменти для автоматизованої перевірки, аналізу контрактів і правових досліджень тощо; ARR перевищує 100 млн доларів США, а кількість співробітників зросла з 40 до 400. Jude Law став глобальним амбасадором бренду, а рекламний слоган звучить: Law just got more attractive.

ChainNewsAbmedia2хв. тому

Anthropic відкриває бета-версію безпеки для Claude для корпоративних користувачів 1 травня

За даними BlockBeats, 1 травня Anthropic оголосила, що Claude Security — інструмент для безпеки коду — відкрив публічне бета-тестування для користувачів Claude Enterprise. Інструмент сканує репозиторії коду на наявність вразливостей безпеки, виконує додаткову перевірку, щоб зменшити кількість хибних спрацювань, і автоматично g

GateNews7хв. тому

У Сполучених Штатах трудове відомство запустило портал для AI-учнів, щоб допомагати компаніям навчати кадри

Американське управління у справах праці під час Національного тижня стажувань (апрентисуми) запустило онлайн-портал для AI-стажерів, який надає навчальні ресурси в одному місці та переводить AI-знання в практичні навички через фреймворк з AI-грамотності. Платформа пропонує модулі для різних галузей і гнучкі маршрути, щоб допомогти компаніям інтегрувати AI-навчання в зареєстровані програми стажувань і підвищити кадровий потенціал та конкурентоспроможність галузі.

ChainNewsAbmedia31хв. тому

X у квітні 2026 року запустить оновлену AI-підсилену рекламну платформу — найбільша переробка за 20 років

За даними X, платформа почала поетапне впровадження переробленої рекламної платформи в квітні 2026 року. Крок означає найбільше оновлення рекламної системи компанії приблизно за 20 років, оскільки вона переводить більше своїх рекламних інструментів на AI. Новий Ads Manager використовує AI-таргетинг і ранжування на основі

GateNews1год тому

Intel зростає на 114% у квітні на тлі сильних фінансових результатів і оптимізму щодо ШІ

За даними CNBC, акції Intel у квітні зросли на 114%, ставши найкращим місяцем за всю історію, завдяки сильнішій квартальній звітності та відновленому оптимізму інвесторів щодо її відновлення, пов’язаного з AI. 24 квітня котирування підскочили на 24% після того, як генеральний директор Lip-Bu Tan оголосив, що квартальна виручка зросла більш ніж на 7%, тоді як

GateNews1год тому

Marathon Digital Holdings придбає Long Ridge Energy за 1,5 мільярда доларів на розширення AI дата-центру

Marathon Digital Holdings придбає Long Ridge Energy за $1,5 мільярда, щоб розширити потужності своїх AI дата-центрів. Угода включає газову електростанцію на 505 МВт і 1 600 акрів землі в Огайо, що забезпечить понад 1 ГВт потужності для підтримки майбутньої AI- та IT-інфраструктури

GateNews1год тому
Прокоментувати
0/400
Немає коментарів