跳转至

DeepSeek V4 重磅开源!首次打通华为 Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权

来源: InfoQ
作者: 李冬梅
日期: 2026-04-24
原文: https://www.infoq.cn/article/wUUPEzvNajcaVN0k7HPF


核心要点

模型发布

  • DeepSeek-V4-Pro: 1.6T 总参数 / 49B 激活参数,面向高性能场景
  • DeepSeek-V4-Flash: 284B 参数,主攻性价比
  • 百万上下文标配: 1M token 上下文长度成为 DeepSeek 所有官方服务标配

技术突破

1. 混合注意力机制 (CSA + HCA)

  • CSA (压缩稀疏注意力): 每 m 个 token 压缩为 1 个条目,使用 Lightning Indexer 高效选出重要压缩块
  • HCA (高度压缩注意力): 更激进压缩率 (m'=128),保持稠密注意力
  • 效果: 大幅降低长上下文计算和显存需求

2. Engram 记忆模块

  • 梁文锋署名论文核心概念
  • 将"查表"与"计算"分离:固定知识模式存入查找表,O(1) 复杂度调用
  • 释放注意力资源专注于复杂推理任务

3. mHC 流形约束超连接

  • 解决极深网络训练不稳定性
  • 信号增益每层保持稳定 (~1.6 倍)
  • 计算利用率从行业平均 ~60% 提升至 85%+

4. Muon 优化器

  • 万亿参数 MoE 首次大规模采用
  • 混合 Newton-Schulz 迭代策略
  • 设计混合 ZeRO 分配策略解决并行矛盾

5. FP4 量化

  • 无损压缩:FP4 到 FP8 解量化完全无损
  • 推理和 RL rollout 阶段直接使用真实 FP4 权重
  • 索引器分数 FP32→BF16 量化带来 2 倍加速

6. 专家并行优化

  • 专家切分为"波",通信-计算深度融合
  • 在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.5~1.73 倍加速
  • RL rollout 高敏感场景下可达 1.96 倍

跨平台战略

华为 Ascend 验证 - 细粒度专家并行(EP)方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证 - 推理路径已具备跨算力平台适配能力 - 当前开源仍主要基于 CUDA,但已为多算力环境预留空间

价格预期 - 官方 API 页面提到:受限于高端算力,目前 V4-Pro 服务吞吐有限 - 预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调

性能基准 (V4-Pro-Max)

任务 成绩 对比
SimpleQA-Verified 57.9% 远超前代开源模型 (~30%)
Codeforces Elo 3206 分 人类第 23 名,首次追平 GPT-5.4
SWE-Verified 80.6% 接近 Claude Opus 4.6 (80.8%)
Terminal Bench 2.0 67.9% 持平 GPT-5.4 (68.5%)
中文功能性写作 62.7% 胜率 优于 Gemini 3.1 Pro

API 变更

  • 旧接口 deepseek-chatdeepseek-reasoner 将于 2026-07-24 停止使用
  • 过渡期内分别指向 V4-Flash 非思考模式与思考模式
  • 支持 reasoning_effort 参数 (high/max) 调节思考强度

投资含义

  1. 国产 AI 芯片生态: Ascend 验证成功 → 华为/天数/寒武纪等国产芯片生态受益
  2. 成本效率: FP4 + Muon + 专家并行持续推低成本
  3. 开源标准: 百万上下文标配可能重新定义行业标准
  4. 竞争格局: 首次在硬核编程任务上追平 GPT-5.4,开源模型天花板提升

关联页面