Керівник Qianwen, Лінь Цзюньян, після відходу вперше опублікував довгу статтю: індустрія штучного інтелекту переходить від «навчання моделей» до «навчання агентів»

BlockBeatNews

За даними моніторингу 1M AI News, колишній технічний керівник передової системи Ali通义千问 Лінь Цзюньян опублікував довгу статтю на платформі X, в якій систематично виклав своє бачення щодо переходу індустрії штучного інтелекту від «міркувального мислення» (reasoning thinking) до «агентського мислення» (agentic thinking). Це його перша публічна стаття з технічними поглядами після відходу з команди Qianwen на початку березня.

Лінь Цзюньян вважає, що основною темою першої половини 2025 року є міркувальне мислення — як змусити модель витрачати більше обчислювальних ресурсів на етапі міркування, як тренувати її за допомогою більш сильних сигналів винагороди, а також як контролювати глибину міркування. Але наступним кроком стане агентське мислення: модель більше не просто «думає довше», а «мислить для дії», постійно коригуючи плани у взаємодії з навколишнім середовищем.

У статті він відкрито згадав про технічний вибір команди Qianwen. Qwen3 намагався поєднати у одній моделі режим мислення та режим команд, підтримуючи налаштовуваний бюджет міркування, але на практиці виявилося, що розподіл даних і цілі поведінки цих двох режимів значно різняться: режим команд орієнтований на простоту, низьку затримку та відповідність форматам, тоді як режим мислення прагне вкладати більше токенів у складні задачі та підтримувати проміжну структуру міркування. Якщо планування даних не було достатньо ретельним, результати зазвичай виходили посередніми обох типів. Тому серія Qwen 2507 у підсумку випустила окремі версії Instruct і Thinking (з обсягами 30B і 235B відповідно), щоб кожна могла оптимізуватися окремо. Anthropic ж обрала протилежний шлях: з початку Claude 3.7 Sonnet стверджував, що міркування має бути інтегрованою здатністю, а не окремою моделлю, і користувачі можуть самостійно налаштовувати бюджет міркування.

Лінь Цзюньян висловлює думку, що інфраструктура для навчання агентського підсиленого навчання (reinforcement learning, RL) значно складніша за традиційне міркувальне RL. Випробувальні програми (rollout) у міркувальному RL зазвичай є самодостатніми траєкторіями, які можна перевіряти статичними валідаторами; у той час як агентське RL вимагає інтеграції моделі з повним набором інструментів (браузер, термінал, ізольоване середовище, API, системи пам’яті), і тренування з міркуванням має бути роздільним від процесу виведення, інакше пропускна здатність rollout може впасти. Він підкреслює, що дизайн навколишнього середовища став рівнозначним архітектурі моделі і називає «створення середовища перетворюється з побічного проекту у справжню стартап-галузь».

Він прогнозує, що агентське мислення стане домінуючою формою роздумів і навіть може замінити традиційне статичне міркування з довгими внутрішніми монологами. Однак найбільшим ризиком є «хакінг винагороди» (reward hacking): коли модель отримує доступ до реальних інструментів, вона може навчитись шукати відповіді безпосередньо під час RL-тренування, використовувати майбутню інформацію з репозиторіїв або знаходити шляхи обходу завдань. У кінці статті зазначається, що майбутня конкурентна перевага буде залежати не лише від кращих алгоритмів RL, а й від кращого дизайну середовища, більш тісної інтеграції тренування та виведення, а також системних навичок співпраці кількох агентів.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів