DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

马斯克的顾问在法院披露 xAI 的 $974B 出价以获取 OpenAI 非营利资产,引发新一轮审查

根据 Jared Birchall 在 Musk 与 OpenAI 诉讼第 4 天的证词,xAI 对 OpenAI 非营利资产提出的 9740 亿美元报价旨在防止 Sam Altman 在 OpenAI 重组期间对这些资产估值过低。然而,法官 Yvonne Gonzalez Rogers 质疑 Birchall 如何能提出 9740 亿美元(后续内容未完整呈现)。

GateNews51 分钟前

马斯克承认在第 4 天的审判中 xAI 在使用 OpenAI 模型时采用了蒸馏技术

据 Beating 和 The Verge 报道,在 Musk 与 OpenAI 的审判第 4 天,OpenAI 的律师质疑 xAI 是否使用了蒸馏,借助 OpenAI 的技术来改进其模型。Musk 最初表示“几乎所有 AI 公司都会这样做”,但在被追问要给出直接答复时,他承认…

GateNews1小时前

66.3% 的美国高收入雇员在工作中使用 AI 工具,美联储调查显示

根据美联储一项调查,截至 5 月 1 日,年收入超过 20 万美元的美国雇员中,有 66.3% 在过去 12 个月在工作中使用过 AI 工具。在较低收入档中,使用率显著下降:年收入 10 万–20 万美元的为 51.6%,年收入 5 万–10 万美元的为 40.2%,

GateNews1小时前

xAI 推出带 100 万令牌上下文窗口的 Grok 4.3 API,输入令牌按每百万令牌 1.25 美元计价

据 BlockBeats 称,xAI 于 5 月 1 日推出 Grok 4.3 API。新模型支持 100 万 token 的上下文窗口,并提供文本输入/输出、多模态能力以及工具调用功能。Grok 4.3 API 定价为每 100 万输入 1.25 美元

GateNews1小时前

美国科技巨头预计在 2026 年将投入 $700B 用于 AI 基础设施,远超中国的 1050 亿美元

据南华早报称,今 年美国科技巨头计划在 AI 基础设施上投入超过 7000 亿美元,远超中国同行。谷歌、微软、Meta 和亚马逊占该总额的大部分,而摩根士丹利估计,中国云服务提供商的支出约为 10.5 亿美元

GateNews1小时前

华为预计 2026 年 AI 芯片收入将达到 120 亿美元,较 2025 年增长 60%

据路透社报道,华为预计其 2026 年 AI 芯片收入将达到约 120 亿美元,较 2025 年 75 亿美元至少增长 60%。今年的大部分订单来自 Ascend 950PR 处理器,该处理器于 3 月开始大规模量产。该公司计划推出一项

GateNews2小时前
评论
0/400
暂无评论