"FLASH"的搜尋結果
今天
04:05

螞蟻集團 Ling-2.6-flash 模型開源:1040 億參數、啟用 74 億參數,達成多項最新最先進(SOTA)基準

Gate 新聞訊息,4 月 29 日——螞蟻集團的 Ling-2.6-flash 模型權重現已開源釋出;此前該模型的權重僅可透過 API 使用。該模型具備 1040 億(104 billion)總參數,每次推論啟用 74 億(7.4 billion)參數,並提供 256K 上下文視窗,且採用 MIT 授權。HuggingFace 與 ModelScope 提供 BF16、FP8 與 INT4 精度版本。
展開
06:31

DeepSeek V4-Pro 價格砍 75%,API 快取成本降至 1/10

Gate 新聞訊息,4 月 27 日——DeepSeek 宣布,其新款 V4-Pro 模型面向開發者提供 75% 的折扣,並將其 API 產品線中的輸入快取命中價格下調至先前水準的 1/10。 V4 模型於 4 月 25 日以 Pro 和 Flash 版本發布,已針對華為的 Ascend 處理器進行優化。DeepSeek 表示,V4-Pro 在世界知識基準(world-knowledge benchmarks)上優於其他開源模型,並且僅次於 Google 的封閉式 Gemini-Pro-3.1。V4 系列專為 AI 代理而設計,能處理超出聊天機器人能力範圍的複雜任務。 V4-Pro API 成本已低於主要的西方競爭對手,定價為每 100 萬輸出 tokens $3.48,相較之下 for OpenAI 的 GPT-4.5。V4-Flash 定價為每 100 萬輸入 tokens $0.14、每 100 萬輸出 tokens $0.28,可能讓透過單次請求就能完成整份程式碼庫或監管文件的審閱等具成本效益的應用成為可能。
展開
05:33

百度智能雲在千帆平台推出 DeepSeek-V4 API

Gate News 訊息,4 月 25 日 — 百度智能雲已將 DeepSeek-V4 引入其千帆平台,提供對新發布 AI 模型的 API 存取。DeepSeek-V4 提供兩個版本—DeepSeek-V4-Pro 和 DeepSeek-V4-Flash,並具備百萬代幣擴展上下文窗口。 企業和
展開
03:21

DeepSeek 的 V4 訓練數據翻倍至 33T,引發不穩定性並延遲發布

Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts MoE 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題,loss spi
展開
02:27

Meituan Open-Sources 560B Parameter Theorem Proving Model, Achieving 97.1% Pass Rate on 72 Inferences Refreshing Open-Source SOTA

Meituan's LongCat team open-sourced LongCat-Flash-Prover on March 21, a MoE model with 560 billion parameters, focused on Lean4 formal theorem proving. The model is divided into three capabilities: automatic formalization, sketch generation, and complete proof generation, combining reasoning tools with the Lean4 compiler for real-time verification. Training employs the Hybrid-Experts Iteration Framework and HisPO algorithm to prevent reward manipulation. Benchmark tests show that the model has set records for open-source weight models in automatic formalization and theorem proving.
展開