🔥 WCTC S8 全球交易賽正式開賽!
8,000,000 USDT 超級獎池解鎖開啟
🏆 團隊賽:上半場正式開啟,預報名階段 5,500+ 戰隊現已集結
交易量收益額雙重比拼,解鎖上半場 1,800,000 USDT 獎池
🏆 個人賽:現貨、合約、TradFi、ETF、閃兌、跟單齊上陣
全場交易量比拼,瓜分 2,000,000 USDT 獎池
🏆 王者 PK 賽:零門檻參與,實時匹配享受戰鬥快感
收益率即時 PK,瓜分 1,600,000 USDT 獎池
活動時間:2026 年 4 月 23 日 16:00:00 - 2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即參與:https://www.gate.com/competition/wctc-s8
#WCTCS8
V4中的訓練後進化:OPD取代混合RL,將多個專家模型蒸餾成一個
根據 Beating 的監測,DeepSeek V4 的訓練後方法已經發生了重大變化:V3.2 的混合強化學習階段已被 On-Policy Distillation (OPD) 完全取代。新流程包括兩個步驟。在第一步,基於 V3.2 流程,對數學、編碼、代理行為和指令跟隨等領域的專家模型進行訓練。每個專家經過微調,然後使用 GRPO 進行強化學習。在第二步,一個多教師 OPD 將十多位專家的能力蒸餾成一個統一模型:學生根據其自身生成的軌跡,對每個教師在整個詞彙表上進行反向 KL 散度對數蒸餾,將對數對齊以將多個專家權重合併到一個統一的參數空間,從而避免傳統權重合併和混合強化學習中常見的能力衝突。該報告還介紹了生成獎勵模型 (GRM):對於難以用規則驗證的任務,並非訓練傳統的標量獎勵模型,而是利用指導標準的 RL 數據來訓練 GRM,允許演員網絡同時生成和評估,實現對複雜任務的泛化,並配合少量多樣的人類標註。