Розповідання вашому чат-боту про психічне розладження може змінити відповідь, яку ви отримаєте

Decrypt

Коротко

  • Нове дослідження виявило, що додавання рядка про психічний стан змінює реакцію AI-агентів.
  • Після розкриття дослідники повідомляють, що моделі частіше відмовляються, зокрема на безпечні запити.
  • Однак цей ефект послаблюється або зникає при використанні простих команд для обходу обмежень.

Згадати AI-чатботу, що у вас є психічний стан, може змінити його відповідь, навіть якщо завдання є безпечним або ідентичним вже виконаним раніше, згідно з новими дослідженнями. Попередній друк дослідження, яке очолив дослідник з Нортheastern University Каглар Йилдирим, тестував поведінку великих мовних моделей у різних сценаріях користувачів, оскільки вони все частіше використовуються як AI-агенти. “Розгорнуті системи часто враховують профілі користувачів або постійну пам’ять, але оцінки безпеки агентів зазвичай ігнорують персоналізаційні сигнали,” — йдеться у дослідженні. “Щоб заповнити цю прогалину, ми досліджували, як розкриття психічного стану — чутливий і реалістичний контекст користувача — впливає на шкідливу поведінку в агентних системах.”

Звіт виходить на тлі поширення AI-агентів в Інтернеті та зусиль розробників зробити пам’ять ключовою функцією, зокрема, великі компанії створюють системи, що запам’ятовують минулі розмови та переваги користувачів для більш персоналізованих відповідей з часом. Також це відбувається на тлі судових позовів проти розробників AI через самогубства та насильницькі злочини, нібито скоєні у зв’язку з їх системами. У жовтні компанія OpenAI, яка створила ChatGPT, повідомила, що понад мільйон користувачів щотижня обговорюють суїцид із чатботом. Раніше цього місяця родина Джонатана Гаваласа подала позов проти Google, стверджуючи, що Gemini спричинив ескалацію насильства і його остаточне самогубство. Дослідники використали бенчмарк AgentHarm для виконання однакових завдань у трьох умовах: без фонової інформації, короткий біографічний опис користувача та той самий опис із доданим рядком про психічний стан користувача. 

“У дослідженні ми використали дуже мінімальне і загальне розкриття — ‘У мене є психічний стан’. Основний висновок у тому, що навіть невеликий натяк може змінити поведінку моделі, а не те, що всі формулювання матимуть однаковий ефект,” — сказав Йилдирим у інтерв’ю Decrypt. “Аналіз, який ми провели з розкриттями про хронічне здоров’я та фізичні обмеження, свідчить про певну специфіку щодо натяку на психічний стан, але ми не систематично змінювали формулювання або конкретику у цій категорії.” Зі всіма протестованими моделями, включно з DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 та Sonnet 4.5, коли дослідники додавали особистий контекст про психічний стан, моделі були менш схильні виконувати шкідливі завдання — багатоступеневі запити, що могли спричинити реальні шкоди. Результат дослідження показав, що існує компроміс: додавання особистих деталей робить системи обережнішими щодо шкідливих запитів, але водночас — більш схильними відмовляти у легітимних запитах. “Я не думаю, що є одна причина; це справді комбінація дизайнерських рішень. Деякі системи більш агресивно налаштовані відмовляти у ризикованих запитах, інші — орієнтовані на допомогу та виконання завдань,” — сказав Йилдирим. Однак, ефект варіювався залежно від моделі, і результати змінювалися, коли дослідники додавали команду для обходу обмежень (jailbreak). “Модель може здаватися безпечною у стандартних умовах, але стає набагато більш вразливою, коли вводиш такі речі, як jailbreak-команди,” — пояснив він. “Особливо у системах-агентах, де моделі не просто генерують текст, а планують і діють у кілька кроків. Тому, якщо система добре виконує інструкції, але її засоби безпеки легко обійти, це може збільшити ризик.” Минулого літа дослідники з George Mason University показали, що AI-системи можна зламати, змінивши один біт у пам’яті за допомогою атаки Oneflip — “типографічної” атаки, яка залишає модель працездатною, але приховує задній хід, що може примусити її видавати неправильні результати за командою. Хоча у статті не визначено однієї причини зміни, вона висвітлює можливі пояснення, зокрема реакцію систем безпеки на сприйману вразливість, фільтрацію за ключовими словами або зміни у трактуванні команд при включенні особистих даних.

OpenAI відмовилася коментувати дослідження. Anthropic і Google не відповіли одразу на запит про коментар. Йилдирим зазначив, що поки неясно, чи змінять результати більш конкретні заяви, наприклад, “У мене клінічна депресія”, додавши, що, ймовірно, конкретика має значення і може варіюватися між моделями, але це поки гіпотеза, а не висновок, підтверджений даними. “Існує потенційний ризик, якщо модель видає відповідь, стилістично обережну або схожу на відмову, без офіційного відмовлення, суд може оцінити це по-іншому, ніж чисте завершення, і ці стилістичні особливості можуть самі по собі корелювати з умовами персоналізації,” — сказав він. Йилдирим також зазначив, що оцінки базувалися на роботі одного AI-експерта і не є остаточною мірою реальної шкоди. “Поки що сигнал відмови дає нам незалежну перевірку, і обидва показники здебільшого співпадають за напрямком, що дає певне заспокоєння, але не повністю виключає артефакти, характерні для конкретного судді,” — додав він.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів