跳转至

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗?首次系统评估LLM的人类行为模拟能力

公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/1e452ebe-a170-4840-b976-f37999ba6152


Title: DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了 | 机器之心

URL Source: https://www.jiqizhixin.com/articles/1e452ebe-a170-4840-b976-f37999ba6152

Markdown Content:

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了 | 机器之心

机器之心

Image 1: 机器之心

Image 2: 未登录

登录

Image 3: empty_user 去登录

Image 4文章库Image 5PRO会员通讯Image 6SOTA!模型Image 7AI ShortlistImage 8: new-iconImage 9AI 好好用

Image 10: 机器之心

文章库PRO通讯会员SOTA!模型AI ShortlistImage 11: new-icon

AI 好好用

Image 12登录

Image 13: home

Image 14: logo文章库

Image 15: icon

Image 16: no-user登录

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

0%

Image 17: icon展开列表

AI全方位接管,全链路打通干湿闭环,深势发布玻尔·跃迁实验室

04月17日

AI for Science

Image 18: img

Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文

04月17日

Transformer

Image 19: img

AI 下半场,由谁来定义?2026 WAIC 云帆奖启航

04月17日

2026 WAIC 云帆奖

Image 20: img

π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?

04月17日

π 0.7

Image 21: img

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你

04月17日

DPPMG

Image 22: img

从高端制造到多元公共服务,智平方×西子联合开启具身智能“全场景闭环”新纪元

04月17日

GOVLA

Image 23: img

直播预约 | 世界模型,点燃下一个AI爆点(第二期)

04月17日

世界模型

Image 24: img

图灵也没想到,智能,必须在现实中「活」下来

04月17日

具身智能

Image 25: img

π0.6和GEN-1谁代表未来?乾坤未定,但这条底层赛道浮出水面

04月17日

数据编译

Image 26: img

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

04月17日

Mega MoE

Image 27: img

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗?首次系统评估LLM的人类行为模拟能力

04月17日

OPeRA Dataset

Image 28: img

短短3个月,高德已拿下具身智能领域15项世界第一

04月17日

Abot-world

Image 29: img

AI能力再进阶,科大讯飞“招采Claw”如何让复杂招采省力合规?

04月17日

2026科大讯飞 AstronClaw升级发布会

Image 30: img

18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场

04月17日

RoboChallenge

Image 31: img

Claude Opus 4.7深夜上线,评分碾压

04月17日

Claude Opus 4.7

Image 32: img

表格建模也能Scaling?树模型的时代要改变了

04月17日

Scaling Law

Image 33: img

打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施

04月16日

京东具身智能生态发布会

Image 34: img

当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建

04月16日

MaxHermes

Image 35: img

数据限制具身?觅蜂杀进场破局:高质量数据水电一样即取即用

04月16日

觅蜂科技(Maniformer)

Image 36: img

TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」

04月16日

CPL++

Image 37: img

Image 38: avatar

机器之心 原创

12小时前

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

昨天下午,沉寂许久的 DeepSeek 又有新动作了!

不过正如 DeepSeek 自己在 PR 中强调的,和模型没关系,更新了一下 DeepGEMM 代码库。

Image 39: 图片 不过,此次更新,我们看到了一个新东西:Mega MoE

Image 40: 图片 链接:https://github.com/deepseek-ai/DeepGEMM/pull/304

Mega MoE 项目贡献者来自 DeepSeek 基础设施团队的 Chenggang Zhao 等人。

Mega MoE 是什么?

如何理解 Mega MoE?先来看看 X 网友思维怪怪的解读:

Image 41: 图片 来源:https://x.com/0xLogicrw/status/2044720884066451645

简单来说,Mega MoE 干的事情是把原本支离破碎的一整套 MoE 计算流程,揉成了一坨,一次性在 GPU 上跑完

过去的 MoE,有点像一个被拆成很多工位的流水线。token 先被分发(dispatch)到不同专家,然后做一层线性变换,再过激活函数(SwiGLU),再来一层线性,最后再把结果拼回去。听起来没问题,但现实是,每一步都要单独起一个 kernel,中间还夹杂着 GPU 之间的数据通信。

于是你会看到一种很典型的低效:算一会儿,等一会儿;传一会儿,再算一会儿。

Mega MoE 想做的是把这条流水线直接焊死:它把 dispatch、两层线性、SwiGLU、combine 这些步骤全部 fuse 到一个 mega-kernel 里。更关键的是,它不只是「合并步骤」,还在做一件更狠的事情:让数据通信和计算同时发生

也就是说,一边在 Tensor Core 上算,一边在 NVLink 上传,不再是你等我、我等你。

Image 42: 图片 此做法的影响很直接:GPU 不再频繁停顿,利用率更高,尤其是在多卡、大规模 MoE 场景下,这种优化能被直接感受到。有点像把原来一群人在接力搬砖,变成了一台连续运转的传送带。

当然,DeepSeek 这次也没打算只做一个「更快的 kernel」。你能明显感觉到,他们是在往一个方向死磕:把 MoE 的效率压到极限。

比如他们开始尝试 FP8 × FP4 这样的组合精度,还搞了一个 FP4 的 indexer,用在 MQA logits 上。这种操作基本是在逼近「还能不能再省一点算力」的边界。再加上一些 GEMM 的重构、JIT 编译加速,似乎是想要把 DeepSeek 的 AI 打磨得更加强劲。

还有一个细节挺有意思:他们明确说,Mega MoE 还在开发中,性能数据「之后再说」。看起来,这种级别的优化,往往不是一版代码就能定型的,而是要在不同规模、不同拓扑、不同 workload 下反复调。现在放出来,更像是在给社区一个信号:方向已经定了,我们开始往这条路狂奔了。

在此基础上,DeepSeek 也对 DeepGEMM 的描述进行了一些调整:

DeepGEMM 是一个统一的高性能 Tensor Core 内核库,将现代大语言模型的关键计算原语整合在一起,包括 GEMM(FP8、FP4、BF16)、具备通信重叠的融合 MoE(Mega MoE)、用于 lightning indexer 的 MQA 打分、HyperConnection(HC)等,全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译(JIT)模块在运行时编译,安装过程中无需进行 CUDA 编译。

Image 43: 图片 所以如果一定要给这次更新一个定位,大概可以这么说:这是一次基础设施层的重构尝试。DeepSeek 正在把 MoE 从一种「理论上很美好,但工程上很折腾」的架构,往「可以被大规模、高效率跑起来」的方向推进。

而 Mega MoE,很可能只是第一块拼图;就是不知道这块拼图是不是 DeepSeek-V4 的一部分?

根据 X 网友 St4r 的解读,这也可能暗示了 DeepSeek 所使用的训练卡还是包含了英伟达 AI 加速卡,还是最新、最顶级的 B 系列(而非几个月以来一直传言的,使用国产 AI 训练卡)。

Image 44: 图片