ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗？首次系统评估LLM的人类行为模拟能力¶

公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/1e452ebe-a170-4840-b976-f37999ba6152

Title: DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了｜机器之心

URL Source: https://www.jiqizhixin.com/articles/1e452ebe-a170-4840-b976-f37999ba6152

Markdown Content:

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了｜机器之心¶

机器之心¶

登录

去登录

文章库 PRO会员通讯 SOTA！模型 AI Shortlist AI 好好用

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用

登录

文章库

Image 16: no-user 登录

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了

0%

展开列表

AI全方位接管，全链路打通干湿闭环，深势发布玻尔·跃迁实验室

04月17日

AI for Science

Image 18: img

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文

04月17日

Transformer

Image 19: img

AI 下半场，由谁来定义？2026 WAIC 云帆奖启航

04月17日

2026 WAIC 云帆奖

Image 20: img

π0.7来了！涌现出组合泛化、跨本体迁移能力，VLA又行了？

04月17日

π 0.7

Image 21: img

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你

04月17日

DPPMG

Image 22: img

从高端制造到多元公共服务，智平方×西子联合开启具身智能“全场景闭环”新纪元

04月17日

GOVLA

Image 23: img

直播预约 | 世界模型，点燃下一个AI爆点（第二期）

04月17日

世界模型

Image 24: img

图灵也没想到，智能，必须在现实中「活」下来

04月17日

具身智能

Image 25: img

π0.6和GEN-1谁代表未来？乾坤未定，但这条底层赛道浮出水面

04月17日

数据编译

Image 26: img

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了

04月17日

Mega MoE

Image 27: img

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗？首次系统评估LLM的人类行为模拟能力

04月17日

OPeRA Dataset

Image 28: img

短短3个月，高德已拿下具身智能领域15项世界第一

04月17日

Abot-world

Image 29: img

AI能力再进阶，科大讯飞“招采Claw”如何让复杂招采省力合规？

04月17日

2026科大讯飞 AstronClaw升级发布会

Image 30: img

18家具身顶尖势力集结，RoboChallenge 打造全球最大具身模型竞技场

04月17日

RoboChallenge

Image 31: img

Claude Opus 4.7深夜上线，评分碾压

04月17日

Claude Opus 4.7

Image 32: img

表格建模也能Scaling？树模型的时代要改变了

04月17日

Scaling Law

Image 33: img

打造全球领先“具身智能超级供应链”，京东发布行业首个具身数据全链路基础设施

04月16日

京东具身智能生态发布会

Image 34: img

当AI迈入Harness时代：以MiniMax为样本看智能体云端新基建

04月16日

MaxHermes

Image 35: img

数据限制具身？觅蜂杀进场破局：高质量数据水电一样即取即用

04月16日

觅蜂科技（Maniformer）

Image 36: img

TPAMI 2026 | 北大彭宇新团队提出CPL++框架，实现视觉定位模型的「自知之明」和「自我纠错」

04月16日

CPL++

Image 37: img

机器之心原创

12小时前

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了

昨天下午，沉寂许久的 DeepSeek 又有新动作了！

不过正如 DeepSeek 自己在 PR 中强调的，和模型没关系，更新了一下 DeepGEMM 代码库。

Image 39: 图片不过，此次更新，我们看到了一个新东西：Mega MoE。

Image 40: 图片链接：https://github.com/deepseek-ai/DeepGEMM/pull/304

Mega MoE 项目贡献者来自 DeepSeek 基础设施团队的 Chenggang Zhao 等人。

Mega MoE 是什么？

如何理解 Mega MoE？先来看看 X 网友思维怪怪的解读：

Image 41: 图片来源：https://x.com/0xLogicrw/status/2044720884066451645

简单来说，Mega MoE 干的事情是把原本支离破碎的一整套 MoE 计算流程，揉成了一坨，一次性在 GPU 上跑完。

过去的 MoE，有点像一个被拆成很多工位的流水线。token 先被分发（dispatch）到不同专家，然后做一层线性变换，再过激活函数（SwiGLU），再来一层线性，最后再把结果拼回去。听起来没问题，但现实是，每一步都要单独起一个 kernel，中间还夹杂着 GPU 之间的数据通信。

于是你会看到一种很典型的低效：算一会儿，等一会儿；传一会儿，再算一会儿。

Mega MoE 想做的是把这条流水线直接焊死：它把 dispatch、两层线性、SwiGLU、combine 这些步骤全部 fuse 到一个 mega-kernel 里。更关键的是，它不只是「合并步骤」，还在做一件更狠的事情：让数据通信和计算同时发生。

也就是说，一边在 Tensor Core 上算，一边在 NVLink 上传，不再是你等我、我等你。

Image 42: 图片此做法的影响很直接：GPU 不再频繁停顿，利用率更高，尤其是在多卡、大规模 MoE 场景下，这种优化能被直接感受到。有点像把原来一群人在接力搬砖，变成了一台连续运转的传送带。

当然，DeepSeek 这次也没打算只做一个「更快的 kernel」。你能明显感觉到，他们是在往一个方向死磕：把 MoE 的效率压到极限。

比如他们开始尝试 FP8 × FP4 这样的组合精度，还搞了一个 FP4 的 indexer，用在 MQA logits 上。这种操作基本是在逼近「还能不能再省一点算力」的边界。再加上一些 GEMM 的重构、JIT 编译加速，似乎是想要把 DeepSeek 的 AI 打磨得更加强劲。

还有一个细节挺有意思：他们明确说，Mega MoE 还在开发中，性能数据「之后再说」。看起来，这种级别的优化，往往不是一版代码就能定型的，而是要在不同规模、不同拓扑、不同 workload 下反复调。现在放出来，更像是在给社区一个信号：方向已经定了，我们开始往这条路狂奔了。

在此基础上，DeepSeek 也对 DeepGEMM 的描述进行了一些调整：

DeepGEMM 是一个统一的高性能 Tensor Core 内核库，将现代大语言模型的关键计算原语整合在一起，包括 GEMM（FP8、FP4、BF16）、具备通信重叠的融合 MoE（Mega MoE）、用于 lightning indexer 的 MQA 打分、HyperConnection（HC）等，全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译（JIT）模块在运行时编译，安装过程中无需进行 CUDA 编译。

Image 43: 图片所以如果一定要给这次更新一个定位，大概可以这么说：这是一次基础设施层的重构尝试。DeepSeek 正在把 MoE 从一种「理论上很美好，但工程上很折腾」的架构，往「可以被大规模、高效率跑起来」的方向推进。

而 Mega MoE，很可能只是第一块拼图；就是不知道这块拼图是不是 DeepSeek-V4 的一部分？

根据 X 网友 St4r 的解读，这也可能暗示了 DeepSeek 所使用的训练卡还是包含了英伟达 AI 加速卡，还是最新、最顶级的 B 系列（而非几个月以来一直传言的，使用国产 AI 训练卡）。

Image 44: 图片

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗？首次系统评估LLM的人类行为模拟能力¶

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了 ｜ 机器之心¶

机器之心¶

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了｜机器之心¶