拦截新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其用于 Web 搜索代理的后训练方法。该方案使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,再进行在线强化学习 (RL) 以优化搜索准确性和工具使用效率。
强化学习阶段采用 GRPO 算法,包含两个数据来源:一个专有的多跳可验证问答数据集,该数据集由内部种子查询构建,要求进行 2–4 步推理,并通过多求解器进行验证;以及基于评分准则的通用对话数据,将部署需求转换为客观可检验的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或所有评分准则均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最优表现。在 FRAMES 上,它在单次工具调用下达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (四次工具调用) 下,其准确率达到 73.9%,成本为每次查询 $0.02;相比之下,GPT-5.4 的准确率为 67.8%,每次查询 $0.085,Sonnet 4.6 的准确率为 62.4%,每次查询 $0.153。费用数据基于各提供方的公开 API 定价,并不包含缓存优化。
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
AethirClaw запускает CARA — преднастроенного крипто-AI-агента, который можно развернуть за 5 минут, 30 апреля
Согласно официальному объявлению AethirClaw от 30 апреля, компания запустила CARA — предварительно настроенного крипто-AI-агента, работающего на децентрализованной GPU-инфраструктуре Aethir. Платформа включает более 50 встроенных навыков для мониторинга рынка в реальном времени, отслеживания кошельков китов, ончейн…
GateNews16м назад
Агент Hermes от Nous Research добавил функцию куратора для автоматического вывода из эксплуатации неиспользуемых навыков через 30 дней
Согласно Nous Research, фреймворк Hermes Agent добавил функцию Curator 29 апреля, чтобы автоматически управлять жизненным циклом навыков. Функция устраняет ранее существовавшее ограничение, при котором AI-агенты могли накапливать навыки бесконечно, раздувая системные промпты без удаления неиспользуемых.
Curator
GateNews1ч назад
Grok запускает бета-режим Imagine Agent Mode с бесконечным холстом для многошаговых творческих рабочих процессов
Согласно сообщениям, отслеживаемым Beating, веб-версия Grok начинает поэтапное внедрение Imagine Agent Mode (бета) — нового агентского инструмента, построенного на существующих возможностях xAI по генерации изображений и видео. Интерфейс заменяет традиционное окно чата на бесконечное полотно и включает четыре предустановки
GateNews2ч назад
Billions Network становится третьей по величине экосистемой агентских решений с более чем 18 000 развернутых агентов
По данным BlockBeats, 30 апреля Billions Network стала третьей по величине Agent-экосистемой по числу развертываний, обогнав Ethereum — с более чем 18 000 развернутых агентов. Сеть занимает место сразу после BNB Chain и Base. Billions также синхронизировала функцию верифицированной Agent-идентичности по всем
GateNews5ч назад
Ant International связывает 150 млн мерчантов через платежи, работающие на базе ИИ
Ant International заявила, что ее платежная сеть связывает более 150 миллионов торговых точек и свыше 2 миллиардов потребительских аккаунтов по всему миру, поддерживая более 300 способов оплаты в 220 рынках.
Компания в среднем обрабатывает более 20 миллионов транзакций в день и расширяет присутствие в Азии,
CryptoFrontier8ч назад
OKX запускает протокол агентских платежей для коммерции AI-ботов
Криптобиржа OKX в среду представила протокол Agent Payments Protocol (APP), открытый стандарт, предназначенный для того, чтобы AI-агенты могли выполнять полные бизнес-циклы, включая платежи, переговоры и разрешение споров. Протокол следует за похожими предложениями конкурентов, включая x402, который был инкубирован
CryptoFrontier9ч назад