封鎖新聞訊息,4 月 23 日 — Perplexity 的研究團隊發布了一篇技術文章,詳述其用於 Web 搜尋代理的後訓練方法。該方法使用兩個開源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 與 Qwen3.5-397B-A17B),並採用兩階段流程:先進行監督式微調 (SFT) 以建立遵循指令與語言一致性,接著透過線上強化學習 (RL) 以最佳化搜尋準確性與工具使用效率。
RL 階段使用 GRPO 演算法,且有兩種資料來源:一個專有的多跳可驗證問答資料集,係由內部種子查詢構建而成,要求推理 2–4 個跳步,並透過多解算器驗證;以及基於規則量表的通用對話資料,將部署需求轉換為可客觀檢查的原子條件,以防止 SFT 行為退化。
獎勵設計採用閘控聚合——只有在達到基準正確性時((question-answer match))或所有規則量表準則均滿足時,偏好分數才會被計入,以避免高偏好訊號掩蓋事實錯誤。效率懲罰則使用同組錨定,對超出同組中正確答案基準的工具呼叫與生成長度套用平滑懲罰。
評估顯示 Qwen3.5-397B-SFT-RL 在各類搜尋基準上達到業界一流的表現。在 FRAMES 上,單次工具呼叫可達 57.3% 準確率,較 GPT-5.4 高出 5.7 個百分點,並較 Claude Sonnet 4.6 高出 4.7 個百分點。在中等預算 (four tool calls) 下,它以每次查詢 $0.02 達到 73.9% 準確率;相比之下,GPT-5.4 為 67.8%(每次查詢 $0.085),Sonnet 4.6 為 62.4%(每次查詢 $0.153)。成本數據基於各供應商的公開 API 定價,且不包含快取最佳化。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Oobit 將於週四推出支援 Visa 的 AI 代理卡,讓使用者在不進行法幣轉換的情況下消費 USDT
根據 The Block,獲 Tether 支援的錢包新創 Oobit 於週四推出 AI Agent Cards,讓自主機器人能直接使用 USDT 餘額進行採購,而無需轉換為法幣或直接存取公司的信用卡憑證。這些由 Visa 支援的卡片可在任何 Visa 可用的線上場景中使用,並且可用於線上。
GateNews18分鐘前
ChimpX AI 由 Waterdrip Capital 與 MetaLabs Ventures 領投的種子輪募資 280 萬美元
ChimpX AI 今(今日)宣布完成一輪 280 萬美元的種子輪融資,以加速開發 Mojo AI,這是一個執行代理,能將純英文意圖轉換為在 Solana 上的鏈上 DeFi 交易。該輪由 Waterdrip 領投
GateNews2小時前
主要 CEX 於 4 月 29 日推出代理支付協議,支援由 AI 驅動的跨鏈交易
根據近期公告,領先的加密貨幣交易所於 4 月 29 日揭露 Agent Payments Protocol(代理付款協定),這是一項開放標準,讓人工智慧代理能夠在多個區塊鏈網路上執行完整的商業交易,而不需要人工介入。該協定
GateNews2小時前
海象(Walrus)推出 MemWal SDK 供 AI 代理使用之記憶體
Walrus 已推出 MemWal,一款 SDK,旨在透過將可驗證性、可用性、可移植性和可共享性帶入 AI 代理用於儲存與存取資訊的方式,以解決代理式記憶的限制,根據 Mysten Labs Group 產品經理 Abinhav Garg 表示。
可驗證且可移植的記憶
Crypto Frontier2小時前
Oobit 發布支援直接使用 USDT 消費的 AI 代理信用卡(Visa)
根據 The Block,Oobit,一家以 Tether 為背書的錢包新創,今天推出虛擬「Agent Cards(代理卡)」,讓 AI 代理可直接在支援 Visa 的商家使用 USDT 消費,且不需要貨幣轉換或逐筆批准。每張卡都分配給單一代理,並包含消費限額
GateNews6小時前
AethirClaw 於 4 月 30 日推出 CARA,可在 5 分鐘內部署的預先設定加密 AI 代理程式
根據 AethirClaw 於 4 月 30 日的官方公告,該公司推出 CARA,這是一款在 Aethir 的去中心化 GPU 基礎設施上運行的預先配置加密貨幣 AI 代理。該平台提供超過 50 種內建技能,涵蓋即時市場監控、鯨魚錢包追蹤、鏈上
GateNews7小時前