Perplexity 公开网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4

封面新闻讯息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确性与工具使用效率。

强化学习阶段使用 GRPO 算法,并来自两类数据源:一是专有的多跳可验证问答数据集,由内部种子查询构建而来,这些查询需要 2–4 跳推理,并通过多求解器验证;二是基于评分规则的通用对话数据,将部署需求转换为可客观核查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用与生成长度施加平滑惩罚,其基线为同一组中正确答案的基线水平。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它使用单次工具调用达到 57.3% 的准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方公开的 API 定价,并且不包括缓存优化。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

OpenClaw 于 2026.4.29 版本在 4 月 29 日发布,将内存升级为带关系追踪的个性化 Wiki

根据 Beating,开源 AI 助手 OpenClaw(GitHub 36.7 万个星标)于 4 月 29 日发布 v2026.4.29,标志着它在两天内的第二次更新。其记忆系统从基于检索的简单回忆演进为个性化 wiki,使得智能体能够自动构建角色画像并追踪 r

GateNews3小时前

Google 执行长皮查伊透露利用 Gemini AI 洞悉人性建立更真诚的沟通

皮查伊表示,在重要会议前,他用 Gemini 的观点分析预测对方心理,以此增进同理心与更真诚的沟通。AI 代理也能自动整理邮件、排程与摘要,使日常琐事更高效。另以开放共创为核心的 AI 平台正在兴起,Gemini 4 等开源技术降低门槛;同时强调建立 AI 治理框架,政界与社会需参与以解决网安、深伪与永续等挑战。

鏈新聞abmedia6小时前

Oobit 将于周四推出支持 Visa 的 AI 代理卡,使用户无需法币换汇即可使用 USDT 消费

据 The Block 称,Tether 支持的钱包初创公司 Oobit 于周四推出 AI Agent Cards,使自治机器人能够使用 USDT 余额进行购买,而无需转换为法币或直接访问企业银行卡凭证。由 Visa 支持的卡片可在 Visa 可用的线上场景中使用

GateNews6小时前

ChimpX AI 在种子轮融资中筹集 280 万美元,由 Waterdrip Capital 和 MetaLabs Ventures 领投

ChimpX AI 今日宣布完成一轮 280 万美元的种子轮融资,以加速 Mojo AI 的开发。Mojo AI 是一款执行代理,将纯英文意图转换为 Solana 上的链上 DeFi 交易。本轮融资由 Waterdrip 领投

GateNews8小时前

主要 CEX 于 4 月 29 日上线代理支付协议,实现由 AI 驱动的跨链交易

根据最近的一则公告,一家领先的加密货币交易所于 4 月 29 日发布了 Agent Payments Protocol,该协议是一项开放标准,使人工智能代理能够在无需人工干预的情况下,跨越多个区块链网络执行完整的商业交易。该协议

GateNews8小时前

海象推出 MemWal SDK 用于 AI 代理记忆

海象(Walrus)已推出 MemWal,这是一款旨在通过为 AI 代理存储和访问信息带来可验证性、可用性、可移植性和可共享性,从而解决代理式记忆(agentic memory)局限性的 SDK,依据 Mysten Labs Group 产品经理 Abinhav Garg 的说法。 可验证且可移植的记忆

Crypto Frontier9小时前
评论
0/400
暂无评论