OpenAI з’ясувала, звідки взялися «Гобліни»: сигнал нагороди за характер забруднив усю тренувальну лінію

BlockBeatNews

Згідно з моніторингом Beating, OpenAI опублікувала огляд проблеми «гоблінів», яка турбувала кілька поколінь серії GPT. З початку GPT-5.1 модель все частіше вставляє у відповіді порівняння з фантастичними істотами, такими як гобліни та маленькі ельфи, що викликає постійні скарги користувачів. Після запуску GPT-5.1 частота використання слова «goblin» у діалогах ChatGPT зросла на 175%. До GPT-5.4 проблема досягла критичної точки.

Корінь проблеми — у функції налаштування особистості ChatGPT «Нерд» (Nerdy). Системний підказка цієї особистості вимагає від моделі «знімати серйозність за допомогою цікавості мови» та «приймати дивність світу і насолоджуватися нею». Під час тренування сигнал винагороди, що підсилює цей стиль поведінки, надавався за вихідні дані з використанням фантастичних істот, що отримали вищий бал, і в 76,2% датасетів спостерігалася така тенденція.

Проблема у тому, що сигнал винагороди діє лише в рамках «Нерд» особистості, але підсилювальне навчання не гарантує, що набуті поведінки залишаться лише у відповідних сценаріях. Як тільки модель отримує винагороду за певний стиль мовлення в одному контексті, ця звичка може поширитися на інші ситуації через подальше навчання. Шлях поширення досить очевидний: сигнал винагороди заохочує вихідні дані з гоблінами, які потім з’являються у даних для подальшого контрольованого донавчання (SFT), і модель все більше звикає до таких слів, створюючи позитивний зворотний зв’язок. За даними, «Нерд» особистість становить лише 2,5% усіх відповідей ChatGPT, але відповідає за 66,7% згадок гоблінів. У GPT-5.4 частота появи гоблінів у «Нерд» особистості зросла на 3881% порівняно з GPT-5.2.

GPT-5.5 почала тренуватися ще до з’ясування причин, і гобліни вже проникли у дані SFT. OpenAI у березні відмовилася від «Нерд» особистості, видалила сигнал винагороди, що сприяв фантастичним істотам, і відфільтрувала тренувальні дані. Для вже запущеного GPT-5.5 у підказках розробників Codex додали команду для пригнічення цієї поведінки. OpenAI заявила, що це дослідження сприяло створенню нових інструментів для аудиту поведінки моделей.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Claw Intelligence співпрацює з Block Sec Arena, щоб посилити безпеку BNB Chain

Згідно з офіційним оголошенням Block Sec Arena від 30 квітня Claw Intelligence — платформа Web3, що працює на основі ШІ та побудована на BNB Chain, — оголосила про стратегічне партнерство з Block Sec Arena для інтеграції передової кібербезпекової інфраструктури в її екосистему. Співпраця має на меті посилити p

GateNews2хв. тому

NTT оголошує ініціативу AI x OWN, планує збільшити енергетичні потужності Японії втричі до 1 ГВт до 2033 року

27 квітня президент NTT Акіра Сімада оголосив про ініціативу AI x OWN — зусилля компанії з перебудови інтернет-інфраструктури для використання ШІ в реальному часі. NTT планує збільшити свою внутрішню енергетичну потужність утричі — приблизно з 300 МВт сьогодні до близько 1 гігавата до фінансового 2033 року, оскільки телеком-гігант

GateNews1год тому

AI-платформа Certifyde завершила раунд seed на 2 мільйона доларів 1 травня, підтриманий генеральним директором Ripple Бредом Гарлінгхаусом

Згідно з TechfundingNews, платформа для AI-застосунків Certifyde завершила раунд seed на 2 мільйони доларів 1 травня. Інвестори включають K5 Global, Flamingo Capital та бізнес-ангелів, зокрема співзасновника Honey Джорджа Руана, CEO Ripple Бреда Гарлінгхауса й співзасновника Nutra Роланда

GateNews2год тому

Технічний керівник Пентагону: Anthropic досі в чорному списку, виняток для Mythos

Керівник технологій Пентагону (Pentagon technology chief) 1 травня повідомив Конгресу: «Anthropic досі перебуває в чорному списку, але Mythos Preview — це інше питання», офіційно визнавши, що Міністерство оборони по-іншому ставиться до основного бренду Anthropic і до його нової моделі Mythos. Ця заява перегукується з тим, що 19 квітня Axios розкрив: NSA (Агентство національної безпеки) фактично використовує Mythos, і тим самим остаточно закріплює політичний курс на «винятковий канал для Mythos». Водночас це також означає, що Пентагон раніше в суді стверджував: використання інструментів Anthropic загрожує національній безпеці, тоді як нинішні практичні дії створюють внутрішню суперечність у юридичній аргументації. Anthropic vs Pentagon

ChainNewsAbmedia2год тому

137 Ventures закриває $700M для нових фондів, AUM досягає $15B

За даними ChainCatcher, 137 Ventures, ранній інвестор у SpaceX, нещодавно завершила залучення коштів для двох нових фондів на загальну суму понад $700 мільйонів, довівши свої активи під управлінням до понад $15 мільярдів. Новий капітал підтримуватиме інвестиції в AI-агентів, робототехніку та космічну силову установку

GateNews3год тому

Reddit зростає на 16% на сильних прогнозах щодо 2 кварталу; Apple стикається з дефіцитом Mac через те, що попит на ШІ випереджає пропозицію

Акції Reddit зросли на 16% до відкриття ринку в п’ятницю після того, як компанія опублікувала прогноз щодо виручки на наступний квартал, вищий за очікування. Щоденна кількість активних відвідувачів збільшилася на 17% до 126,8 мільйона, тоді як середня виручка на одного користувача у всьому світі підскочила на 44%, завдяки ШІ-інструментам

GateNews3год тому
Прокоментувати
0/400
Немає коментарів