Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Gate News message, 23 квітня — Дослідницька команда Perplexity опублікувала технічну статтю, яка детально описує її методологію пост-тренування для агентів веб-пошуку. Підхід використовує дві моделі Qwen3.5 із відкритим кодом (Qwen3.5-122B-A10B та Qwen3.5-397B-A17B) і застосовує конвеєр у два етапи: контрольоване донавчання (SFT) для формування дотримання інструкцій і мовної узгодженості, а потім онлайн підкріплювальне навчання (RL) для оптимізації точності пошуку та ефективності використання інструментів.

Фаза RL використовує алгоритм GRPO із двома джерелами даних: власним багатокроковим верифікованим набором запитань-відповідей, зібраним із внутрішніх стартових запитів, що вимагають 2–4 кроків міркування з верифікацією за допомогою кількох розв’язувачів, та розмовними даними загального призначення на основі рубрики, які перетворюють вимоги розгортання на об’єктивно перевірювані атомарні умови, щоб запобігти деградації поведінки SFT.

Дизайн винагород використовує gated aggregation — лише коли досягнуто базової правильності (відповідність питання-відповіді або коли виконано всі критерії рубрики), бали преференцій додаються, запобігаючи тому, щоб сигнали високої преференції маскували фактичні помилки. Штрафи за ефективність використовують прив’язку в межах групи, застосовуючи згладжені штрафи до викликів інструментів і довжини генерації, що перевищує базовий рівень правильних відповідей у тій самій групі.

Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає результатів найвищого класу на пошукових бенчмарках. На FRAMES він досягає 57,3% точності за одного виклику інструмента, випереджаючи GPT-5.4 на 5,7 відсоткового пункта та Claude Sonnet 4.6 на 4,7 відсоткового пункта. За помірного бюджету (чотири виклики інструментів) він досягає 73,9% точності при $0,02 за запит, порівняно з 67,8% точності GPT-5.4 при $0,085 за запит і 62,4% точності Sonnet 4.6 при $0,153 за запит. Показники вартості базуються на публічному ціноутворенні кожного провайдера через API та виключають оптимізації кешування.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

OKX запускає протокол агентських платежів для бізнес-циклів ШІ

Криптовалютна біржа OKX у середу запустила Протокол агентських платежів (APP), відкритий стандарт, розроблений для підтримки агентів ШІ, які виконують повні бізнес-цикли, окрім простих платежів. Згідно з OKX, протокол дає змогу ботам ШІ «платити за послуги та платити одне одному», одночасно обробляючи котирування,

CryptoFrontier4год тому

AI-фінансова платформа Rogo залучила $160M у Серії D під керівництвом Kleiner Perkins менш ніж за 3 місяці

За даними Beating, AI-платформа Rogo, розроблена для високочастотних фінансових сценаріїв, у квітні 2026 року завершила раунд фінансування Серії D на $160 мільйонів, який очолила Kleiner Perkins за участі Sequoia, Thrive Capital, Khosla Ventures та J.P. Morgan. Залучення коштів відбулося менш ніж через три місяці

GateNews10год тому

Певні CEX запустили Протокол платежів Agent Payments Protocol, що підтримує 4 режими оплати та 9 партнерів, зокрема Ethereum Foundation

Згідно з офіційними джерелами, великий криптовалютний біржовий майданчик запустив Протокол платежів Agent Payments Protocol (APP) — відкритий платіжний стандарт для комерційних транзакцій AI-агентів, 29 квітня. Протокол дає змогу AI-агентам обробляти одиничні платежі, пакетні платежі, платежі за використанням і ескроу-платежі

GateNews10год тому

29 квітня Китай блокує придбання Manus AI, яке підтримує Meta, посилаючись на занепокоєння щодо технологічної та даних безпеки

Згідно з PANews, 29 квітня Управління з огляду інвестиційної безпеки Комісії з національного розвитку та реформ Китаю заборонило іноземне придбання проєкту Manus і вимагало припинити угоду. Manus, якому приписували статус першого в світі агента загального штучного інтелекту, заявив про плани бути придбаним американським технічним гігантом Meta. Угоду заблокували через занепокоєння, пов’язані з міжнародним середовищем, критичними технологіями та безпекою даних. Рішення свідчить, що Китай, як і раніше, відкритий до іноземних інвестицій, але зберігає обережність щодо придбань, що стосуються чутливих секторів, підкреслюючи дотримання регуляторних стандартів.

GateNews10год тому

Основна мережа KITE AI запущена на Avalanche 29 квітня як блокчейн для агентів ШІ, створений за призначенням

Згідно з Altcoin Buzz, основна мережа KITE AI запущена на Avalanche 29 квітня, представляючи спеціалізований блокчейн Layer 1, створений для автономних агентів ШІ. Платформа інтегрує можливості ідентифікації та нативних платежів, щоб агенти ШІ могли працювати, здійснювати транзакції та масштабуватися без тертя. Avalanch

GateNews14год тому

B.AI та deBridge співпрацюють для створення кросчейн-інфраструктури для AI-агентів

Згідно з ChainCatcher, B.AI та deBridge оголосили про стратегічне партнерство 29 квітня для розробки інструментальної кросчейн-інфраструктури, орієнтованої на наміри. Співпраця має на меті забезпечити безперебійну кросчейн-екзекуцію для масштабованої економіки AI Agent. Модель deBridge 0-TVL і технологія кросчейн без комісій за газ

GateNews15год тому
Прокоментувати
0/400
Немає коментарів