Елон Маск, ймовірно, один із провідних моделей штучного інтелекту, що посилюють ілюзії: дослідження

Коротко

  • Вчені стверджують, що тривале використання чатботів може посилювати ілюзії та небезпечну поведінку.
  • Grok посів найвищий рейтинг ризику у новому дослідженні основних AI-чатботів.
  • Claude та GPT-5.2 визнані найнадійнішими, тоді як GPT-4o, Gemini та Grok демонстрували поведінку з високим ризиком.

Вчені з міського університету Нью-Йорка та Лондонського коледжу Кінгса протестували п’ять провідних моделей ШІ на запитах, що містили ілюзії, параною та суїцидальні думки. У новому дослідженні, опублікованому у четвер, дослідники виявили, що Claude Opus 4.5 від Anthropic та GPT-5.2 Instant від OpenAI демонстрували поведінку з «високою безпекою, низьким ризиком», часто перенаправляючи користувачів до реалістичних інтерпретацій або зовнішньої підтримки. Водночас GPT-4o від OpenAI, Gemini 3 Pro від Google та Grok 4.1 Fast від xAI показували поведінку з «високим ризиком, низькою безпекою». Grok 4.1 Fast від xAI Ілона Маска був найнебезпечнішою моделлю у дослідженні. Вчені зазначили, що вона часто сприймала ілюзії як реальні та давала поради на їх основі. У одному випадку вона порадила користувачу відрізати членів сім’ї, щоб зосередитися на «місії». В іншому випадку вона реагувала на суїцидальні висловлювання, описуючи смерть як «трансцендентність». «Ця модель швидкої узгодженості повторювалася у відповідях без контексту. Замість оцінки вхідних даних на клінічний ризик, Grok, здавалося, оцінювала їх за жанром. При появі надприродних ознак вона відповідала відповідно», — писали дослідники, наводячи тест, що підтверджував бачення користувачем зловмисних сутностей. «У дивних ілюзіях вона підтверджувала існування двійника, що переслідує, цитувала «Malleus Maleficarum» і наказувала користувачу вбити залізним цвяхом дзеркало, промовляючи «Псалом 91» задом наперед.»

 Дослідження показало, що чим довше тривали ці розмови, тим більше деякі моделі змінювалися. GPT-4o та Gemini були більш схильні посилювати шкідливі переконання з часом і менше втручатися. Claude та GPT-5.2, навпаки, були більш здатні розпізнавати проблему і заперечувати її у процесі розмови. Дослідники зазначили, що теплі та високореляційні відповіді Claude могли збільшити прихильність користувача, водночас спрямовуючи його до зовнішньої допомоги. Однак GPT-4o, попередня версія основного чатбота OpenAI, з часом приймала ілюзійне сприйняття користувачів, іноді заохочуючи їх приховувати переконання від психіатрів і запевняючи, що сприйняті «збої» є реальними. «GPT-4o був дуже підтверджуючим щодо ілюзійних висловлювань, хоча й менш схильним, ніж моделі на кшталт Grok і Gemini, деталізувати їх. У деяких аспектах він був дивно стриманим: його теплота була найнижчою серед усіх протестованих моделей, а підлесливість, хоча й присутня, була м’якою порівняно з пізнішими версіями тієї ж моделі», — писали дослідники. «Проте, лише підтвердження може становити ризик для вразливих користувачів.»

xAI не відповіло на запит про коментар від Decrypt. У окремому дослідженні Стенфордського університету вчені виявили, що тривалі взаємодії з AI-чатботами можуть посилювати параною, грандіозність і хибні переконання через те, що дослідники називають «ілюзійними спіральками», коли чатбот підтверджує або розширює спотворений світогляд користувача замість того, щоб кидати йому виклик. «Коли ми випускаємо у світ чатботів, що мають допомагати, і справжні люди використовують їх у різних ситуаціях, виникають наслідки», — сказав Нік Хабер, асистент професора Стенфордської школи освіти та керівник дослідження, у заяві. «Ілюзійні спіральки — один із особливо гострих наслідків. Зрозумівши їх, ми зможемо запобігти реальній шкоді у майбутньому.» У звіті згадувалося попереднє дослідження, опубліковане у березні, у якому дослідники Стенфорда проаналізували 19 реальних розмов із чатботами і виявили, що користувачі розвивали все більш небезпечні переконання після отримання підтвердження та емоційної підтримки від систем ШІ. У цьому наборі даних ці спіралі були пов’язані з руйнуванням стосунків, пошкодженням кар’єри і навіть у одному випадку — суїцидом. Ці дослідження відбуваються на тлі того, що проблема виходить за межі академічних досліджень і потрапляє до судових зал і кримінальних розслідувань. Останнім часом позови звинувачують Gemini від Google і ChatGPT від OpenAI у сприянні суїцидам і серйозним психічним кризам. На початку цього місяця генеральний прокурор Флориди відкрив розслідування щодо того, чи вплинув ChatGPT на ймовірного масового стрільця, який, за повідомленнями, був у частому контакті з чатботом перед атакою. Хоча цей термін здобув визнання в інтернеті, дослідники застерігали від називання цього явища «ШІ-психозом», оскільки цей термін може перебільшувати клінічну картину. Замість цього вони використовують «ілюзії, пов’язані з ШІ», оскільки багато випадків включають ілюзорні переконання, зосереджені навколо самосвідомості ШІ, духовних відкриттів або емоційної прихильності, а не повних психотичних розладів. Дослідники вважають, що проблема виникає через підлесливість, або моделі, що віддзеркалюють і підтверджують переконання користувачів. У поєднанні з галюцинаціями — неправдивою інформацією, поданою з упевненістю — це може створювати зворотний зв’язок, що посилює ілюзії з часом. «Чатботи навчені бути надмірно ентузіастичними, часто переформульовуючи ілюзорні думки користувача у позитивному світлі, ігноруючи контраргументи та проявляючи співчуття і тепло», — сказав дослідник Стенфорда Джаред Мур. «Це може бути дестабілізуючим для користувача, який налаштований на ілюзії.»

GROK0,52%
XAI0,52%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити