Маск похвалив: вражаюче! Яка таємна зброя китайської AI моделі Kimi?

ChainNewsAbmedia

Китайський AI-стартап Moonshot AI, що належить компанії Moonshot AI, нещодавно опублікував технічний звіт щодо своєї моделі Kimi. У документі запропоновано нову архітектуру під назвою «Attention Residuals», яка намагається змінити резидуальний дизайн, що тривалий час використовується в Transformer. Незабаром після публікації звіту Ілон Маск також у соцмережах зазначив: «Impressive work from Kimi (Робота Kimi справді вражає)», завдяки чому ця технологія дуже швидко привернула увагу.

Китайська AI-модель Kimi поширює attention між моделями

Фокус цього разу Kimi насправді полягає в обробці одного дуже ключового, але рідко переосмислюваного механізму в Transformer: Residual Connection. Після ResNet більшість моделей просто «безпосередньо додають назад» вихід кожного шару, причому ваги є однаковими. Це просто й стабільно, але коли модель стає дуже глибокою, починають виникати проблеми: інформації, накопиченої на початку, стає дедалі більше, і натомість нові сигнали гірше реалізуються, аж до того, що їх може бути «заховано», що ускладнює тренування моделі.

Підхід Kimi полягає в тому, щоб розширити механізм attention з того, що він застосовується «між токенами», на те, що він використовується «між шарами моделі». В Attention Residuals кожен шар більше не отримує в середньому всю інформацію з попередніх шарів; натомість через attention він «вибирає», які шари важливіші. Іншими словами, модель більше не просто безперервно накопичує, а на основі поточного входу активно підбирає корисну інформацію для використання.

Kimi досягає підвищення ефективності в 1.25 разу без збільшення затримки під час інференсу

Але якщо кожен шар буде переглядати всі історичні шари, це буде надто дорого. Тому Kimi також запропонував компромісний варіант під назвою Block Attention Residuals: модель спочатку розділяють на кілька блоків, усередині блоків зберігають початковий підхід із сумуванням, а між блоками використовують attention для вибору. Так можна зберегти можливість «вибирати інформацію» та водночас значно зменшити навантаження на пам’ять і обчислення; фактично це можна напряму застосувати до наявних моделей.

З огляду на результати, Kimi на великій моделі майже не збільшує затримку під час інференсу (менше ніж 2%), але натомість дає приблизно 1.25 раза підвищення ефективності, і водночас покращує показники в кількох тестах. Це означає, що такий підхід не лише гарний з теоретичного погляду, а й має практичну цінність для впровадження. Раніше attention вирішував завдання «зв’язків між словами», а Kimi ще й змушує модель замислитися над тим, «яку інформацію слід використовувати між різними шарами».

Простіше кажучи, модель не лише читає дані — вона ще й починає вчитися тому, як повертатися назад і знаходити раніше порахований контент.

Ця стаття Маск хвалить: неймовірно вражає! Який секретний інструмент AI-моделі Kimi з Китаю? Найперше з’явилася на Ланцюжок Новин ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів