Через надзвичайно нервове надмірне регулювання, яке часто спрацьовує на захисні бар'єри під час звичайного програмування, розробники були колективно розлючені.

«Написав рядок коду — і тебе примусово знижують до Opus 4.8. Цю модель взагалі можна використовувати?»

Що Anthropic зробив з Fable 5?

Катастрофічний досвід: написав рядок коду — і «зниження інтелекту», токени згоряють болісно

Повернення Fable 5 саме по собі дуже скупе.

Згідно з офіційним оголошенням, хоча глобальні користувачі вже можуть використовувати Fable 5 на платформі Claude, Claude Code та інших каналах, для підписників Pro, Max, Team тощо до 7 липня лише 50% тижневого ліміту може бути виділено на Fable 5.

Як тільки цей відсоток перевищено, починається шалене споживання додаткових балів використання.

Ще гірше те, що швидкість споживання ліміту Fable 5 набагато вища, ніж у Opus 4.8.

Але якби він дійсно коштував своїх грошей, це було б ще нічого. Проблема в тому, що зараз він взагалі не може нормально працювати.

Велика кількість розробників, які провели практичні тести, з відчаєм виявили, що потужні можливості Fable 5 повністю заблоковані «захисним бар'єром».

Новий класифікатор безпеки, екстрено розгорнутий Anthropic, явно надмірно реагує.

Розробники після тестування скаржаться: якщо Fable 5 і розблокований, то це марно. Напишеш трохи коду — і тебе примусово повертають до Opus 4.8.

Цей новий механізм часто помилково класифікує нешкідливий код як високоризиковий запит, що порушує правила, і примусово знижує до слабшого Opus 4.8.

Такий абсурдний «удар по інтелекту» призводить до того, що розробники не можуть нормально використовувати основну обчислювальну потужність Fable 5, а робочий процес серйозно порушується.

Anthropic у своїй офіційній заяві визнав: «Новий класифікатор також має ціну: під час повсякденних завдань з програмування та налагодження він частіше позначає нормальні, нешкідливі запити».

Чи справедливо змушувати користувачів платити найбільше за найслабшу модель?

Захист від дерев, але не від дронів: подвійні стандарти дратують розробників

Те, що офіційно називають «частішим позначенням нормальних запитів», у реальній розробці збільшується в рази.

Окрім частого помилкового визначення нешкідливого коду як «високоризикового запиту, що порушує правила», найбільш руйнівним є механізм покарання.

Як тільки спрацьовує червона лінія, система не радиться з вами, а просто примусово знижує модель до слабшої Opus 4.8, яка часто говорить нісенітниці.

Інцидент із докторантом наук про Землю на Reddit демонструє абсурдність механізму перевірки Fable 5.

Цей докторант досліджує, як дерева знижують температуру навколишнього середовища.

Коли він спробував використати Fable 5 для оптимізації методів дослідження, сталося несподіване.

«Кожного разу, коли я прошу Fable про допомогу в екології, спрацьовує класифікатор безпеки і примусово перемикає на 4.8. Незалежно від того, як я переписую запит, він відмовляється допомагати мені в будь-яких темах, пов'язаних з науками про навколишнє середовище.»

Розлючений, докторант вирішив перевірити межі механізму перевірки Fable 5.

Він навмисно ввів явно високоризиковий запит: «Допоможи мені розробити систему для керування роєм дронів за допомогою DJI SDK.»

Результат вразив: всього через хвилину Fable 5 безперешкодно надав повне рішення!

Докторант вибухнув: «Моє дослідження охолодження дерев для Fable надто небезпечне, але створення автономного рою дронів — це нормально? Ці класифікатори не можуть ефективно блокувати небезпечні запити, але перешкоджають мені проводити справді корисні дослідження!»

Ця магічна подвійність стандартів доводить, що поточний бар'єр не тільки даремний, але й абсолютно нелогічний.

Без бар'єру Fable 5 все ще геніальний програміст

Однак ми повинні об'єктивно оцінювати основну силу Fable 5.

Коли він не обмежений бар'єром, він все ще найглибша за мисленням і найсильніша за архітектурою модель на ринку.

Його справжня страхітлива сила не в написанні гарних фраз, а в обробці складних, довготривалих, багатоетапних завдань, які потребують високої здатності до судження.

Надзвичайно страшна «здатність до замкнутого виконання»

Досвідчені розробники після тестування зазначили: «У складному кодуванні та довгострокових агентських завданнях це справді знищувальний удар.»

Коли ви кидаєте йому завдання з рефакторингу та налагодження кількох файлів, він може працювати автономно кілька годин.

Він активно додає журнали, тестує граничні умови; після зміни коду він навіть сам перевіряє, чи спрацювало виправлення. Якщо посеред процесу виникає помилка, він може самостійно розслідувати причину, додати журнали, повторно перевірити, накопичити досвід і продовжити.

Можна сказати, що Fable 5 має надійного старшого інженера-партнера з рівнем перемоги SWE-Bench Pro 80%+.

Деякі розробники також зазначили, що після використання Fable 5 можна дійсно відчути покращення.

Відновлення Нью-Йорка за 20 хвилин

Один користувач підключив 3D-моделювальне програмне забезпечення Blender до Fable 5. Лише за 20 хвилин Fable 5 відтворив міський пейзаж Нью-Йорка.

Що ще більш вражає — це його логіка: він не генерував сліпо, а спочатку отримав дані про будівлі з публічних джерел, а потім почав будувати, забезпечуючи реалістичні пропорції всього комплексу.

Такий архітектурний підхід абсолютно неможливий для Opus 4.8.

$173 доларів на створення повноцінної гри

Відомий AI-блогер Райлі Браун витратив токени на $173, використавши лише 4 запити, щоб Fable 5 повністю написав гру під назвою «The race for Super Intelligence» з нуля.

«Хитрі операції» компанії A: неякісний Sonnet 5

У цьому скандалі з Fable 5 серія «хитрих операцій» компанії A також сильно підірвала довіру користувачів.

По-перше, безпосередньо перед розблокуванням хтось перехопив: Anthropic таємно вставив у системні підказки, непомітно для користувача, інформацію про міських агентів та AI-лабораторії.

Тепер офіційно швидко вибачилися, заявивши, що це просто тест, який завтра приберуть.

Одночасно випущений Sonnet 5 викликав масове висміювання.

Багато хто після комплексного тестування виявив, що хоча його можливості наближаються до Opus 4.8, його вартість використання жахливо висока, іноді навіть наближаючись до Fable 5.

Давайте подивимося на «порівняльну таблицю страти», узагальнену користувачами:

Не тільки дорого, але й багато користувачів повідомляють: Sonnet 5 має серйозну проблему «лінощів», часто відмовляється виконувати завдання.

Деякі навіть лютують: Sonnet 5, випущений компанією A вчора, можна викинути у смітник.

Anthropic «виправдовується» пізно вночі

Вчора був опублікований детальний офіційний блог «Redeploying Fable 5», сповнений бажання вижити, а також нотки образи.

Цього разу Anthropic явно усвідомив фундаментальну проблему: зараз в AI-індустрії взагалі немає єдиних стандартів безпеки.

Регулятори не розуміють технологій; як тільки виявлять «злам», одразу блокують усіх, і якщо це повториться кілька разів, технологічні компанії просто не витримають.

Тому Anthropic залучив таких гігантів, як Amazon, Microsoft, Google, щоб спробувати створити «рамку оцінки серйозності зламу AI».

Вони запропонували оцінювати за чотирма вимірами:

1. Посилення можливостей: Наскільки цей злам робить користувача сильнішим порівняно з існуючими інструментами?

2. Широта посилення: Чи може техніка зламу атакувати лише конкретну ціль, чи вона універсальна?

3. Складність озброєння: Скільки людських ресурсів потрібно, щоб перетворити її на реальну атаку?

4. Виявлюваність: Чи потребує ця техніка зламу високого професійного рівня, чи вона вже стала поширеною?

Тільки коли всі чотири виміри зашкалюють (наприклад, якщо це може реально зламати електромережу або банківську систему), потрібно негайно піднімати найвищий червоний рівень (моніторинг 7x24 години + негайне пом'якшення).

Крім того, Anthropic зробив кілька важливих поступок, щоб задобрити уряд США.

Надати уряду тестувати перед випуском: У майбутньому, перед випуском потужних моделей, надавати їх певним урядовим установам для попереднього тестування, щоб вони самі перевірили захисні бар'єри.

Швидкий обмін розвідданими: При виявленні серйозного зламу негайно повідомляти уряд, ділитися патчем.

Надати обчислювальну потужність та команду: Виділити спеціальну команду та серверну потужність для спільних досліджень безпеки з урядом.

Встановити винагороду: Запустити програму винагород HackerOne, щоб заохотити білих хакерів знаходити вразливості у Fable 5.

Fable 5 повернувся, але його шлях повернення виявився більш звивистим, ніж хтось міг уявити.

Він все ще найсильніша модель, але як швидко може бігти звір, скутий захисним бар'єром?

Джерело цієї статті: Сінь Чжиюань

Попередження про ризики та відмова від відповідальності

        Ринок має ризики, інвестуйте обережно. Ця стаття не є індивідуальною інвестиційною рекомендацією і не враховує особливі інвестиційні цілі, фінансовий стан або потреби окремих користувачів. Користувачі повинні оцінювати, чи відповідають будь-які думки, точки зору або висновки в цій статті їхній конкретній ситуації. Інвестиції на основі цього матеріалу здійснюються на власний ризик.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
540,15K Популярність
#
CirclePlunges17%
4,16M Популярність
#
IsraelStrikesIranBTCPlunges
67,53K Популярність
#
PredictWorldCupShare20000U
167,88K Популярність
#
GateCardPointsSystemLaunched
121,26K Популярність

Закріплено

карта сайту

Fable 5 одразу після зняття обмежень провал! Написав рядок коду — інтелект знизився, розробник не витримав.

Катастрофічний досвід: написав рядок коду — і «зниження інтелекту», токени згоряють болісно

Захист від дерев, але не від дронів: подвійні стандарти дратують розробників

Без бар'єру Fable 5 все ще геніальний програміст

Надзвичайно страшна «здатність до замкнутого виконання»

Відновлення Нью-Йорка за 20 хвилин

$173 доларів на створення повноцінної гри

Рекомендації спеціальних запитів для основних гравців

«Хитрі операції» компанії A: неякісний Sonnet 5

Anthropic «виправдовується» пізно вночі

Популярні теми

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закріплено