Оценка отладки Claude Fable 5 снижается с 86,2 до 25,9 после восстановления 1 июля

Claude Fable 5 вернулся в строй 1 июля, и в тот же день две платформы для бенчмаркинга ИИ опубликовали противоречивые оценки производительности. BridgeBench сообщил, что показатель отладки Claude Fable 5 рухнул с 86,2 до 25,9 после восстановления, в то время как Arena.AI обнаружила, что производительность практически не изменилась на основе тысяч слепых голосов пользовательских предпочтений. Расхождение связано с новым классификатором безопасности Anthropic, который направляет большинство задач по кодингу и отладке на Claude Opus 4.8, а не позволяет Fable 5 обрабатывать их напрямую. Anthropic признал, что классификатор даёт ложные срабатывания на рутинных задачах по кодингу. Компания внедрила консервативный классификатор как условие восстановления Fable 5 после демонстрации уязвимости в безопасности, о которой сообщили исследователи Amazon.

BridgeBench фиксирует резкое падение оценок по всем категориям кодинга

BridgeMind повторно запустил полный набор тестов на кодинг для версии Fable 5 от 1 июля в день её возвращения. BridgeBench тестирует реальные задачи по кодингу по категориям, включая отладку, рефакторинг и устойчивость к галлюцинациям, оценивая от 0 до 100, насколько хорошо модель справляется с каждой категорией. Отладка упала с 86,2 до 25,9, рефакторинг — с 73,6 до 38,4, устойчивость к галлюцинациям — с 75,9 до 61,7.

Из 12 задач по отладке TypeScript только три действительно дошли до Fable 5. Остальные девять были перехвачены новым классификатором безопасности Anthropic и перенаправлены на Claude Opus 4.8. BridgeBench оценивает каждый случай перенаправления как ноль, потому что модель, которая ответила, не была той, которую оценивали. Классификатор был обучен блокировать технику джейлбрейка, о которой сообщили Amazon, заставившую Fable 5 идентифицировать и демонстрировать уязвимости ПО. Отладка TypeScript выглядит для классификатора достаточно похожей на работу с безопасностью, так что перенаправление срабатывает постоянно.

Голоса предпочтений от Arena.AI показывают ровную или улучшенную производительность

Arena.AI посмотрел на тот же вопрос под другим углом. Платформа собирает тысячи слепых голосов пользовательских предпочтений по нескольким категориям — текст, зрение, документы, код и агенты — и ранжирует модели с помощью рейтинга Эло. Когда две модели анонимно соревнуются, а люди выбирают победителя, оценка отражает реальное воспринимаемое качество, а не инфраструктурную маршрутизацию.

Сравнение «до и после» показало, что Fable 5 в целом держится на прежнем уровне. Фронтенд-код упал с 1650 до 1623 Эло — разница, которую Arena отметил как находящуюся в пределах доверительного интервала по мере накопления данных. Производительность по документам улучшилась на 34 пункта. Экспертный текст вырос на 25. Креативное письмо немного подросло на 9. Категории, которые снизились — кодинг на -18, сложные запросы на -3 — это именно те, где классификатор с наибольшей вероятностью перехватывает запрос до того, как Fable сможет ответить.

Когда Fable 5 действительно обрабатывает задачу, он всё ещё работает как Fable 5. Обычные пользователи, занимающиеся креативным письмом, анализом документов, исследованиями и экспертными текстовыми запросами, скорее всего, заметят небольшую разницу или не заметят её вовсе. Это те категории, где Arena.AI показывает ровную или улучшенную производительность. Разработчики, работающие в смежных с безопасностью областях — управление памятью, всё, что касается слов vulnerability, exploit, hook или fix — будут регулярно сталкиваться с перенаправлением.

Anthropic признаёт ложные срабатывания на рутинной работе по кодингу

Anthropic заявил, что классификаторы со временем улучшатся, признав, что в настоящее время они охватывают слишком широкую область. Первоначальный запрет был введён после того, как исследователи Amazon нашли метод, позволяющий заставить Fable идентифицировать и демонстрировать уязвимости ПО, и правительство США расценило это как угрозу национальной безопасности. Решением стало сделать классификатор достаточно консервативным, чтобы ловить это и всё, что рядом, а затем со временем настраивать его. Anthropic не назвал целевую дату, когда это произойдёт.

ЧАВО

Из-за чего показатель отладки Claude Fable 5 упал с 86,2 до 25,9 после 1 июля?

Падение произошло из-за нового классификатора безопасности Anthropic, который перенаправил девять из двенадцати задач по отладке на Claude Opus 4.8 вместо того, чтобы позволить Fable 5 обработать их. BridgeBench оценивает каждое перенаправление как ноль, потому что оцениваемая модель не ответила. Классификатор был развёрнут для блокировки техники джейлбрейка, о которой сообщили Amazon, заставившей Fable 5 демонстрировать уязвимости ПО.

Как результаты тестирования пользовательских предпочтений Arena.AI отличались от результатов BridgeBench?

Arena.AI собрал тысячи слепых голосов пользовательских предпочтений по категориям текст, зрение, документы, код и агенты. Платформа обнаружила, что производительность Fable 5 в основном осталась на уровне июньской версии, при этом производительность по документам улучшилась на 34 пункта, а по экспертному тексту — на 25. Фронтенд-код упал с 1650 до 1623 Эло — разница, которую Arena отметил как находящуюся в пределах доверительного интервала.

Когда Anthropic доработает классификатор безопасности, чтобы уменьшить количество ложных срабатываний?

Anthropic признал, что новые классификаторы дают ложные срабатывания на рутинных задачах по кодингу и отладке, и заявил, что система будет дорабатываться со временем. Компания не назвала сроков, когда произойдут доработки.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев