DeepSeek V4 已到来——其专业版比 GPT 5.5 Pro 便宜 98%

###简要概述

  • DeepSeek 发布了其新款 V4-Pro 模型,拥有 130亿亿参数。
  • 每百万输入/输出令牌的成本为 1.74 美元/3.48 美元,约为 Claude Opus 4.7 价格的 1/20,远低于 GPT 5.5 Pro 的 98%。
  • DeepSeek 在华为昇腾芯片上部分训练 V4,规避了美国的出口限制,并表示到 2026 年晚些时候上线的 950 个新超级节点后,Pro 模型的低价将进一步下降。

DeepSeek 归来,就在 OpenAI 发布 GPT-5.5 几个小时后出现。巧合吗?也许吧。但如果你是一个中国的 AI 实验室,过去三年一直被美国政府通过芯片出口禁令试图减缓发展,你的时间感会变得非常敏锐。 这家位于杭州的实验室今天发布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的预览版本,都是开源权重,都拥有一百万令牌的上下文窗口。这意味着你基本可以在模型崩溃之前,处理大致相当于《指环王》三部曲的上下文大小。两者的价格也远低于西方的同类产品,且对于能够本地运行的用户都是免费的。 DeepSeek 上一次重大突破——2025 年 1 月的 R1——在一天之内就让 Nvidia 的市值蒸发了数十亿美元,投资者质疑美国公司是否真的需要如此巨额投资才能取得中国小型实验室用更低成本实现的成果。V4 则是另一种动作:更低调、更技术化,更专注于实际构建 AI 的效率。

两个模型,截然不同的任务  在这两款新模型中,DeepSeek 的 V4-Pro 是重量级的,拥有 80亿亿参数。打个比方,参数是模型用来存储知识和识别模式的内部“设置”或“脑细胞”——参数越多,理论上能存储的复杂信息越多。这使其成为迄今为止 LLM 市场中最大的开源模型。这个规模听起来可能荒谬,直到你知道它每次推理只激活 490 亿个参数。 这是 DeepSeek 自 V3 以来不断完善的一种“专家混合”技巧:完整模型就在那里,但每次请求只唤醒相关的那一部分。更多知识,计算成本不变。 “DeepSeek-V4-Pro-Max,DeepSeek-V4-Pro 的最大推理努力模式,显著提升了开源模型的知识能力,稳固地确立了其作为当今最佳开源模型的地位,” DeepSeek 在 Huggingface 上的官方卡片中写道。“它在编码基准测试中表现出色,并在推理和智能任务上大大缩小了与领先闭源模型的差距。” V4-Flash 更实用:总参数为 2840亿,激活参数 130 亿。设计目标是更快、更便宜,根据 DeepSeek 自己的基准测试,“在提供更大思考预算的情况下,其推理性能与 Pro 版本相当。”

两者都支持一百万令牌的上下文。这大约是 80亿字——大致相当于《指环王》三部曲加一些内容。而且这是标准功能,不是高级付费版本。 DeepSeek 的“秘密武器”:让注意力机制在大规模下表现不差 这里是技术部分,适合极客或对模型背后魔法感兴趣的人。DeepSeek 不隐藏其秘密,所有内容免费提供——完整论文已在 Github 上公布。 标准的 AI 注意力机制——让模型理解词与词之间关系的机制——存在严重的扩展问题。每当你将上下文长度翻倍,计算成本大约会变成四倍。因此,用一百万令牌运行模型,不仅是 80亿令牌的两倍那么简单,而是四倍。这也是为什么长上下文一直是实验室添加的一个勾选框,然后在速率限制后悄悄调低。 DeepSeek 发明了两种新型注意力机制来解决这个问题。第一种,压缩稀疏注意力(Compressed Sparse Attention),分两步工作。它首先将一组令牌——比如每 4 个令牌——压缩成一个条目。然后,不是关注所有压缩后的条目,而是用“闪电索引器”只挑选最相关的结果。你的模型从关注一百万令牌,变成关注一小部分最重要的块,就像图书馆员不读每一本书,但知道该查哪个书架。 第二种,更激进的“高度压缩注意力”(Heavily Compressed Attention),将每 128 个令牌折叠成一个条目——没有稀疏选择,只有残酷的压缩。你会失去细粒度的细节,但可以获得极其廉价的全局视野。这两种注意力类型交替运行在不同层中,使模型既有细节,又有全局概览。

![]$600 https://img-cdn.gateio.im/social/moments-d9d1d6dfd4-7db02574dc-8b7abd-badf29(

技术论文的结论:在一百万令牌的情况下,V4-Pro 使用的计算量只有其前身 )V3.2( 的 27%。KV 缓存——模型追踪上下文所需的内存——降至 V3.2 的 10%。V4-Flash 更进一步:只需 10% 的计算,7% 的内存。 这也让 DeepSeek 能以远低于竞争对手的价格提供每个令牌的成本,同时输出效果相当。用美元来衡量:昨天推出的 GPT-5.5,输入和输出每百万令牌的价格分别为 ),而 GPT-5.5 Pro 的价格为 (每百万输入和输出令牌。

DeepSeek V4-Pro 的价格为每输入 1.74 美元,每输出 3.48 美元。V4-Flash 则为每输入 0.14 美元,每输出 0.28 美元。Cline 的 CEO Saoud Rizwan 指出,如果 Uber 使用 DeepSeek 而非 Claude,其 2026 年的 AI 预算——据说足够用四个月——将能持续七年。

deepseek v4 现在是最便宜的 sota 模型,价格仅为 opus 4.7 的 1/20。

举个例子,如果 Uber 使用 DeepSeek 而非 Claude,他们的 2026 年 AI 预算将能用 7 年,而不是只有 4 个月。 pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan )@sdrzn$5 2026 年 4 月 24 日

基准测试 DeepSeek 在其技术报告中做了不同寻常的事情:公布差距。大多数模型发布时只挑选它们获胜的基准测试。DeepSeek 进行了完整的对比,涵盖 GPT-5.4 和 Gemini-3.1-Pro,发现 V4-Pro 的推理能力比这些模型落后大约三到六个月,但仍然公布了结果。 V4-Pro-Max 实际获胜的领域:Codeforces 竞赛编程基准,类似人类国际象棋。V4-Pro 得分 3,206,排名大约在实际人类参赛者的第 23 位。在 Apex Shortlist——一组精选的难题数学和 STEM 问题——它的通过率为 90.2%,而 Opus 4.6 为 85.9%,GPT-5.4 为 78.1%。在 SWE-Verified 上,衡量模型解决真实 GitHub 问题的能力,它得分 80.6%,与 Claude Opus 4.6 持平。

![]$30 https://img-cdn.gateio.im/social/moments-eb59a0278b-e3a83ea5a6-8b7abd-badf29$30

它落后的地方:多任务基准 MMLU-Pro $180 Gemini-3.1-Pro,得分 91.0% 对比 V4-Pro 的 87.5%(,专家知识基准 GPQA Diamond )Gemini 94.3 对比 V4-Pro 90.1(,以及人类最后考试(Humanity’s Last Exam),这是一个研究生水平的基准,Gemini-3.1-Pro 的 44.4% 仍优于 V4-Pro 的 37.7%。 在长上下文方面,V4-Pro 领先开源模型,并在 CorpusQA 基准测试中击败 Gemini-3.1-Pro——这是一个模拟真实文档分析、支持一百万令牌的测试),但在 MRCR(衡量模型检索深藏在长草堆中的特定针的能力)上败给了 Claude Opus 4.6。 面向智能体设计,而非仅仅回答问题 智能体相关的功能是此次发布对开发者特别有吸引力的部分。

V4-Pro 可以在 Claude Code、OpenCode 和其他 AI 编程工具中运行。根据 DeepSeek 内部对 85 位开发者的调查,使用 V4-Pro 作为主要编码智能体的开发者中,52% 认为它已准备好成为他们的默认模型,39%倾向于是,少于 9% 认为不是。内部员工表示,它的表现优于 Claude Sonnet,并在智能体编码任务上接近 Claude Opus 4.5。

人工分析(Artificial Analysis)对 AI 模型在实际任务中的表现进行了独立评估,在 GDPval-AA 基准中,V4-Pro 位列所有开源权重模型第一——这是一个测试金融、法律和研究任务中经济价值知识的基准,采用 Elo 评分。V4-Pro-Max 得分 1,554 Elo,领先于 GLM-5.1 的 1,535 和 MiniMax 的 M2.7 的 1,514。作为参考,Claude Opus 4.6 在同一基准上的得分为 1,619——仍然领先,但差距在缩小。

DeepSeek V4 Pro 是 GDPval-AA 上排名第一的开源权重模型,我们的智能体实际工作任务评估@deepseek_ai 发布了 V4 Pro (1.6T 总参数 / 49B 激活参数) 和 V4 Flash (284B 总参数 / 13B 激活参数)。V4 是 DeepSeek 自 V3 以来的首个新尺寸模型,所有中间模型… pic.twitter.com/2kJWVrKQjF

— 人工分析(Artificial Analysis) (@ArtificialAnlys) 2026 年 4 月 24 日

DeepSeek 的 V4 还引入了一种叫做“交错思维”(interleaved thinking)的机制。在之前的模型中,如果你运行一个多工具调用的智能体——比如先搜索网页,然后运行代码,再次搜索——模型的推理上下文会在每轮之间被清空。每一步都得从头重建思维模型。V4 保留了完整的思考链,确保在工具调用之间不会失忆,所以一个 20 步的智能体流程不会中途失忆。这对于运行复杂自动化流程的用户来说,比想象中更重要。 DeepSeek 与中美 AI 战争 自 2022 年起,美国一直限制对中国的高端 Nvidia 芯片出口。官方目标是减缓中国 AI 发展,但芯片禁令没有阻止 DeepSeek,反而促使他们发明了更高效的架构,并建立了国内硬件供应链。 DeepSeek 并非在真空中发布 V4——近期 AI 领域一直活跃:Anthropic 于 4 月 16 日推出了 Claude Opus 4.7——一款在编码和推理方面表现出色、令牌使用量高的模型。就在前一天,Anthropic 还在研发 Claude Mythos,一款他们称因在自主网络攻击方面太强而不能公开发布的网络安全模型。 小米于 4 月 22 日推出了 MiMo V2.5 Pro,支持多模态——图像、音频、视频。每百万令牌的输入和输出成本为 (。它在大多数编码基准测试中都能匹配 Opus 4.6。三个月前,没人把小米当作前沿 AI 公司,现在它比大多数西方实验室更快推出具有竞争力的模型。

OpenAI 的 GPT-5.5 昨天发布,输出成本飙升至 )每百万令牌的价格(Pro 版本)。它在 Terminal Bench 2.0 测试中优于 V4-Pro,得分 82.7% 对 70.0%(,测试复杂的命令行智能体工作流程。但在相同任务上,它的成本远高于 V4-Pro。同一天,腾讯发布了 Hy3,另一款专注于效率的最先进模型。 这对你的意义 面对如此多的新模型,开发者真正关心的问题是:何时值得付出高价? 对于企业来说,数学可能已经改变。一个每百万输入令牌仅 1.74 美元的模型,意味着大规模文档处理、法律审查或代码生成流程——六个月前还很昂贵——现在变得更便宜。一百万令牌的上下文意味着你可以在一次请求中提交整个代码库或法规文件,而不用拆分多次调用。 此外,它的开源特性意味着不仅可以在本地硬件上免费运行,还可以根据公司需求和用例进行定制和改进。 对于开发者和单打独斗的构建者,V4-Flash 是值得关注的模型。每输入 0.14 美元,每输出 0.28 美元,比一年前被视为预算选项的模型还要便宜——而且它能处理大部分 Pro 版本的任务。DeepSeek 现有的 deepseek-chat 和 deepseek-reasoner 接口已分别路由到 V4-Flash 的非思考和思考模式,所以如果你在用 API,已经在用它了。 目前这些模型仅支持文本。DeepSeek 表示正在开发多模态能力,这意味着 Xiaomi 和 OpenAI 等其他大实验室仍占优势。这两款模型都获得 MIT 许可证,今日已在 Hugging Face 上提供。旧的 deepseek-chat 和 deepseek-reasoner 接口将于 2026 年 7 月 24 日退役。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论