跳转至

DMR Knowledge Wiki

DeepSeek V4 重磅开源！首次打通华为 Ascend — InfoQ

DeepSeek V4 重磅开源！首次打通华为 Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权¶

来源: InfoQ
作者: 李冬梅
日期: 2026-04-24
原文: https://www.infoq.cn/article/wUUPEzvNajcaVN0k7HPF

核心要点¶

模型发布¶

DeepSeek-V4-Pro: 1.6T 总参数 / 49B 激活参数，面向高性能场景
DeepSeek-V4-Flash: 284B 参数，主攻性价比
百万上下文标配: 1M token 上下文长度成为 DeepSeek 所有官方服务标配

技术突破¶

1. 混合注意力机制 (CSA + HCA)¶

CSA (压缩稀疏注意力): 每 m 个 token 压缩为 1 个条目，使用 Lightning Indexer 高效选出重要压缩块
HCA (高度压缩注意力): 更激进压缩率 (m'=128)，保持稠密注意力
效果: 大幅降低长上下文计算和显存需求

2. Engram 记忆模块¶

梁文锋署名论文核心概念
将"查表"与"计算"分离：固定知识模式存入查找表，O(1) 复杂度调用
释放注意力资源专注于复杂推理任务

3. mHC 流形约束超连接¶

解决极深网络训练不稳定性
信号增益每层保持稳定 (~1.6 倍)
计算利用率从行业平均 ~60% 提升至 85%+

4. Muon 优化器¶

万亿参数 MoE 首次大规模采用
混合 Newton-Schulz 迭代策略
设计混合 ZeRO 分配策略解决并行矛盾

5. FP4 量化¶

无损压缩：FP4 到 FP8 解量化完全无损
推理和 RL rollout 阶段直接使用真实 FP4 权重
索引器分数 FP32→BF16 量化带来 2 倍加速

6. 专家并行优化¶

专家切分为"波"，通信-计算深度融合
在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.5~1.73 倍加速
RL rollout 高敏感场景下可达 1.96 倍

跨平台战略¶

华为 Ascend 验证 - 细粒度专家并行（EP）方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证 - 推理路径已具备跨算力平台适配能力 - 当前开源仍主要基于 CUDA，但已为多算力环境预留空间

价格预期 - 官方 API 页面提到：受限于高端算力，目前 V4-Pro 服务吞吐有限 - 预计下半年昇腾 950 超节点批量上市后，Pro 价格会大幅下调

性能基准 (V4-Pro-Max)¶

任务	成绩	对比
SimpleQA-Verified	57.9%	远超前代开源模型 (~30%)
Codeforces Elo	3206 分	人类第 23 名，首次追平 GPT-5.4
SWE-Verified	80.6%	接近 Claude Opus 4.6 (80.8%)
Terminal Bench 2.0	67.9%	持平 GPT-5.4 (68.5%)
中文功能性写作	62.7% 胜率	优于 Gemini 3.1 Pro

API 变更¶

旧接口 deepseek-chat 和 deepseek-reasoner 将于 2026-07-24 停止使用
过渡期内分别指向 V4-Flash 非思考模式与思考模式
支持 reasoning_effort 参数 (high/max) 调节思考强度

投资含义¶

国产 AI 芯片生态: Ascend 验证成功 → 华为/天数/寒武纪等国产芯片生态受益
成本效率: FP4 + Muon + 专家并行持续推低成本
开源标准: 百万上下文标配可能重新定义行业标准
竞争格局: 首次在硬核编程任务上追平 GPT-5.4，开源模型天花板提升

关联页面¶

entities/DEEPSEEK — DeepSeek 实体页面
entities/NVDA — NVIDIA
entities/HUAWEI — 华为
concepts/ai-model-release-cycle — AI 大模型发布周期
concepts/ai-compute-economics — AI 算力经济学