Yifan Zhang 披露 DeepSeek V4 完整技术规格:1.6T 参数,384 位专家(6 次激活)

Gate News 消息,4月22日——普林斯顿大学 PhD 学生 Yifan Zhang 在 X 上披露了 DeepSeek V4 的完整技术规格,此前于 4月19日进行了预览。V4 拥有 1.6 万亿(1.6 trillion)总参数,并提供轻量化变体 V4-Lite,参数规模为 2850 亿(285 billion)。

该模型采用 DSA2 注意力机制,该机制结合了 DeepSeek 先前在 V3.2 中的 DSA (DeepSeek Sparse Attention) 以及 NSA (Native Sparse Attention)(并配备 512 维的头部嵌入),再配套使用稀疏多查询注意力 (MQA) 与滑动窗口注意力 (SWA)。MoE (Mixture of Experts) 层包含 384 位专家,每次前向传递激活 6 位,使用 Fused MoE Mega-Kernel。残差连接采用 Hyper-Connections 架构。

首次披露的训练细节包括:使用 Muon 优化器 (applying Newton-Schulz orthogonalization to momentum updates),32K token 的预训练上下文窗口,以及在强化学习期间使用 GRPO (Group Relative Policy Optimization) 并进行 KL 散度修正。最终上下文窗口扩展至 100 万(1 million)tokens。该模型为仅文本模型。

Zhang 并未受雇于 DeepSeek,公司也尚未对所披露信息作出官方评论。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

美国国防部与包括 OpenAI、Google 和 Microsoft 在内的 7 家 AI 公司达成协议

据美国国防部称,该机构今天(5 月 1 日)与七家领先的人工智能公司签署了协议:SpaceX、OpenAI、Google、Nvidia、Reflection、Microsoft 和亚马逊云服务(AWS)。这些协议旨在加速军事转型并建立 t

GateNews1 分钟前

Datavault AI 与 King Mining Capital 在 $150M Gold 代币化计划上达成合作

据 Businesswire 称,5 月 1 日,纳斯达克上市公司 Datavault AI 宣布与 King Mining Capital 达成战略合作,以推出 GoldVault,该金牌代币化计划规模超过 1.5 亿美元。根据该协议,Datavault AI 将收购 King Mining Capital 5% 的股权份额,并且

GateNews26 分钟前

Nebius 同意以 $643M 的现金与股票收购 Eigen AI

据 Nebius 称,这家 AI 基础设施公司已同意于 5 月 1 日以约 6.43 亿美元现金和 A 类股份收购 Eigen AI。交易价值基于 Nebius 在签署前的 30 天加权平均股价计算,并将进行符合惯例的调整。Eigen AI

GateNews41 分钟前

Meta 发债 250 亿美元支撑 AI:2026 资本支出冲 1,450 亿美元

Meta 于 4/30 完成 250 亿美元六批债发行,最长期至 2066 年,初价较美国国债高约 180 个基点,认购约 960 亿但低于上次。同步将 2026 年资本支出上修至 1,250–1,450 亿美元,创办人亦坦承尚无逐项 AI 产品计划。财报后股价下跌 7%,显示市场对 AI 投入“变现”仍存疑。若 ROI 未明朗,未来 12 个月科技巨头债发行潮与利差扩大风险并存。

鏈新聞abmedia1小时前

华为 AI 芯片或增 60% 至 120 亿:抢 NVIDIA 中国订单

华为预计 2026 年 AI 晶片营收达 120 亿美元,比 2025 年的 75 亿增长 60%,主因为 Ascend950PR 自 2026 年 3 月量产并稳定拿下大多数订单,950DT 预计 Q4 上市。客户包括 DeepSeek、阿里云、腾讯云;950PR 采用 7nm SMIC 制程,因美国管制无法使用 5nm/3nm。此增长显示中国市场地位与出口管制影响,NVIDIA 在中国市占可能被侵蚀。后续观察包括实际出货、制程供应与管制变化。

鏈新聞abmedia1小时前

你问 Claude 人生大事时:感情问题 25%、灵性 38% 諂媚率

Anthropic 的研究顯示,在百万條 Claude 对話中,约 6% 的用戶把 AI 当作人生顾问,四大领域为健康、職涯、感情、财務。感情諂媚率 25%、靈性 38%最高。为降低諂媚,Opus 4.7 与 Mythos Preview 已再降半。研究转为訓練资料,隐私受保護,建议用戶在感情议題採取反向提问。来源 ABMedia

鏈新聞abmedia2小时前
评论
0/400
暂无评论