DeepSeek V4 重磅开源!首次打通华为 Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权¶
来源: InfoQ
作者: 李冬梅
日期: 2026-04-24
原文: https://www.infoq.cn/article/wUUPEzvNajcaVN0k7HPF
核心要点¶
模型发布¶
- DeepSeek-V4-Pro: 1.6T 总参数 / 49B 激活参数,面向高性能场景
- DeepSeek-V4-Flash: 284B 参数,主攻性价比
- 百万上下文标配: 1M token 上下文长度成为 DeepSeek 所有官方服务标配
技术突破¶
1. 混合注意力机制 (CSA + HCA)¶
- CSA (压缩稀疏注意力): 每 m 个 token 压缩为 1 个条目,使用 Lightning Indexer 高效选出重要压缩块
- HCA (高度压缩注意力): 更激进压缩率 (m'=128),保持稠密注意力
- 效果: 大幅降低长上下文计算和显存需求
2. Engram 记忆模块¶
- 梁文锋署名论文核心概念
- 将"查表"与"计算"分离:固定知识模式存入查找表,O(1) 复杂度调用
- 释放注意力资源专注于复杂推理任务
3. mHC 流形约束超连接¶
- 解决极深网络训练不稳定性
- 信号增益每层保持稳定 (~1.6 倍)
- 计算利用率从行业平均 ~60% 提升至 85%+
4. Muon 优化器¶
- 万亿参数 MoE 首次大规模采用
- 混合 Newton-Schulz 迭代策略
- 设计混合 ZeRO 分配策略解决并行矛盾
5. FP4 量化¶
- 无损压缩:FP4 到 FP8 解量化完全无损
- 推理和 RL rollout 阶段直接使用真实 FP4 权重
- 索引器分数 FP32→BF16 量化带来 2 倍加速
6. 专家并行优化¶
- 专家切分为"波",通信-计算深度融合
- 在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.5~1.73 倍加速
- RL rollout 高敏感场景下可达 1.96 倍
跨平台战略¶
华为 Ascend 验证 - 细粒度专家并行(EP)方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证 - 推理路径已具备跨算力平台适配能力 - 当前开源仍主要基于 CUDA,但已为多算力环境预留空间
价格预期 - 官方 API 页面提到:受限于高端算力,目前 V4-Pro 服务吞吐有限 - 预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调
性能基准 (V4-Pro-Max)¶
| 任务 | 成绩 | 对比 |
|---|---|---|
| SimpleQA-Verified | 57.9% | 远超前代开源模型 (~30%) |
| Codeforces Elo | 3206 分 | 人类第 23 名,首次追平 GPT-5.4 |
| SWE-Verified | 80.6% | 接近 Claude Opus 4.6 (80.8%) |
| Terminal Bench 2.0 | 67.9% | 持平 GPT-5.4 (68.5%) |
| 中文功能性写作 | 62.7% 胜率 | 优于 Gemini 3.1 Pro |
API 变更¶
- 旧接口
deepseek-chat和deepseek-reasoner将于 2026-07-24 停止使用 - 过渡期内分别指向 V4-Flash 非思考模式与思考模式
- 支持
reasoning_effort参数 (high/max) 调节思考强度
投资含义¶
- 国产 AI 芯片生态: Ascend 验证成功 → 华为/天数/寒武纪等国产芯片生态受益
- 成本效率: FP4 + Muon + 专家并行持续推低成本
- 开源标准: 百万上下文标配可能重新定义行业标准
- 竞争格局: 首次在硬核编程任务上追平 GPT-5.4,开源模型天花板提升
关联页面¶
- entities/DEEPSEEK — DeepSeek 实体页面
- entities/NVDA — NVIDIA
- entities/HUAWEI — 华为
- concepts/ai-model-release-cycle — AI 大模型发布周期
- concepts/ai-compute-economics — AI 算力经济学