直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单¶
公众号: 机器之心 发布日期: 今天 抓取日期: 2026-04-14 URL: https://www.jiqizhixin.com/articles/8992fcb6-3b62-4e4a-977d-4089703c92cc
Title: ICLR 2026 | BioMD:从结构快照到连续轨迹,蛋白-配体全原子动力学生成模型 | 机器之心
URL Source: https://www.jiqizhixin.com/articles/8992fcb6-3b62-4e4a-977d-4089703c92cc
Markdown Content:
ICLR 2026 | BioMD:从结构快照到连续轨迹,蛋白-配体全原子动力学生成模型 | 机器之心¶
机器之心¶
![]()
登录
文章库
PRO会员通讯
SOTA!模型
AI Shortlist
AI 好好用

文章库

登录
ICLR 2026 | BioMD:从结构快照到连续轨迹,蛋白-配体全原子动力学生成模型
0%
展开列表
火山引擎:Seedance 2.0 API 服务全面开放
今天
火山引擎

目标更重要?国内公司超越Generalist,进化到动作中心世界模型
今天
极佳世界

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单
今天
token

腾讯开源算法大赛学术成果和千万级别数据集,推动广告推荐技术发展
今天
腾讯广告算法大赛

ICLR 2026 | BioMD:从结构快照到连续轨迹,蛋白-配体全原子动力学生成模型
今天
AI for Science

直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单
今天
Being-H0.7

在一台1970年代的PDP-11上训练Transformer需要多久?答案是5.5分钟
今天
Transformer

二元成功率已经过时!PRM-as-a-Judge才是你需要的具身操作评测框架
今天
具身操作评测框架

养虾「不可能三角」:好用、好玩、安全,复旦这个「00后」团队做到了!
04月13日
XSafeClaw

上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型
04月13日
DENG Lab

荣耀发布自研龙虾AI智能体YOYO Claw技术 开创“养虾本”新品类
04月13日
YOYO Claw

13 个榜单 SOTA!明略科技正式开源GUI-VLA 模型Mano-P 1.0
04月13日
Mano-P 1.0

全球第一,13个SOTA!我们找到了龙虾界掌管GUI的神
04月13日
Mano-P 1.0

国内首个!加入六维力的全感知数采,让VLA模型进化出力触觉
04月13日
原生全感知力触数采系统

迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品
04月13日
Latent Space

大卫贝克团队从头设计小分子结合蛋白质家族:开启按需定制生物传感器的新纪元
04月13日
AI for Science

ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!
04月13日
LRT(Latent Reasoning Tuning)

三方协同创新,北大-智源SpikePingpong算法助力智元灵犀X2彰显中国具身智能实力
04月13日
人形机器人

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2
04月13日
MME-Survey

大佬深度解析:Coding Agent的底层运行逻辑是什么?
04月13日
Coding Agent

![]()
ScienceAI 原创
刚刚
ICLR 2026 | BioMD:从结构快照到连续轨迹,蛋白-配体全原子动力学生成模型
作者 | 论文团队
编辑丨ScienceAI
从 AlphaFold2 到 AlphaFold3,结构预测模型解决了「算得准」的问题,Alphafold3 不仅能预测蛋白结构,还能准确建模蛋白质和药物配体相互作用。然而,在药物发现与计算化学的真实工作流里,科学家还要回答第二个同样关键的问题:分子如何运动 —— 配体在结合口袋中如何涨落、蛋白主链与侧链如何协同形变,乃至配体沿何路径解离至溶剂。传统分子动力学(MD)通过数值积分给出原子轨迹,但极小时间步(飞秒量级)与长程生物学过程(微秒 — 毫秒)之间的鸿沟,使「算得长」长期是一道硬门槛。
近年来,机器学习开始作为 MD 的替代或加速器出现;但在蛋白 — 小分子配体这一场景下,现有方法或将蛋白视为刚体只考虑配体运动,或专为蛋白设计而无法处理小分子配体。能不能有一套方法,把蛋白和配体一起建模、全原子、连续轨迹、还能跑得出来?
在这一背景下,粤港澳大湾区数字经济研究院(IDEA)与瑞士洛桑联邦理工学院(EPFL)的研究者提出 BioMD,一个面向蛋白 — 配体全原子系统的长时程轨迹生成模型。研究论文被 ICLR 2026 录用。

论文链接:https://openreview.net/forum?id=LQDeJk6NOr
项目主页:https://github.com/IDEA-XL/BioKinema

图 1 | 配体 RMSD 随帧间隔的变化(左)与配体解离轨迹示例(右)。短时尺度内构象变化温和、长时程可出现显著位移,为分层生成框架提供了直觉动机。
技术痛点:「会画静态结构」与「会跑动力学」之间有多远?
现有路线大致可分为两类,两类都有各自的天花板:
- 构象生成类模型(如 AlphaFold 3、ConfDiff):擅长预测结构快照,但无法给出时序连续的轨迹,更无法描述配体解离这类稀有事件。
- 轨迹生成类模型(如 NeuralMD、MDGen):尝试对动力学建模,但前者将蛋白视为静止只考虑配体运动,后者专为蛋白设计,均不支持蛋白 — 小分子全原子联合建模。
更底层的难点在于误差累积:「长轨迹」意味着在高维构象空间里走出连贯路径,如果逐帧生成,误差会随时间滚雪球式放大。

图 2 | BioMD 方法总览。(a) 两阶段分层:粗粒度预测(Forecasting)与细粒度插值(Interpolation);(b) 时间调度:已知帧无噪声(τ=1),待生成帧从纯噪声出发(τ=0)经迭代恢复,「噪声即掩码」让两任务共享同一套网络。
核心洞察:把「长轨迹」拆成「先粗后细」两段问题
BioMD 的出发点来自 MD 数据中一条经验规律:在短时间隔内,配体构象变化往往相对温和;而在长间隔上,可能出现显著位移乃至解离(图 1)。团队据此把长时程生成拆成两个协同阶段:
- 粗粒度预测(Forecasting):先对轨迹做稀疏采样(每隔 k=10 步取一帧),在「关键帧」序列上学习大跨度演化 —— 先搭出轨迹骨架。
- 细粒度插值(Interpolation):在相邻关键帧之间补全中间帧,以两端锚点为条件在局部把运动补连贯。
两阶段并非两套独立模型,而是被统一进同一个条件流匹配框架中,仅通过不同的输入掩码模式切换任务。这一设计让有效序列长度大幅缩短,从而抑制误差累积的根本来源。
「噪声即掩码」:两任务一套网络的统一训练框架
团队采用条件流匹配(Conditional Flow Matching)训练速度场模型。对轨迹序列的每一帧施加独立噪声调度:已知的条件帧保持「干净」(τ=1),待生成帧从纯噪声出发(τ=0)迭代恢复。通过「噪声即掩码」策略 —— 将噪声水平视为帧是否已知的指示器 —— 预测与插值只需用不同的掩码模式控制,复用同一速度场网络 u_θ。
直观理解:模型「一次看整条轨迹」,通过掩码告知哪些时刻是锚点、哪些需要生成,从而把长程建模难点拆解为可训练的子问题。这一思路借鉴了 Diffusion Forcing 中逐帧独立噪声的设计哲学,并将其扩展到蛋白 — 配体联合轨迹生成场景。
在网络架构上,BioMD 直接在全原子笛卡尔坐标上工作,由 SE (3) 等变图 Transformer 编码初始构象的空间几何约束,再由 FlowTrajectoryTransformer 在整条轨迹上同时建模帧内原子交互(AttentionPairBias)与跨帧时序依赖(TemporalAttention)。训练目标中还引入键长约束、碰撞惩罚与几何中心损失三类辅助项,将基本物理合理性直接写入优化过程。

图 3 | BioMD 详细架构。预测 / 插值两种模式共用同一速度场网络,由 SE (3) 图编码器提取条件表征,FlowTrajectoryTransformer 同时处理帧内空间交互(AttentionPairBias)与跨帧时序依赖(TemporalAttention)。
实验结果:动力学生成性能验证
MISATO:配体口袋内动力学
MISATO 聚焦配体在结合口袋内的短时程动力学,每条轨迹含 100 帧(8ns MD 采样)。BioMD 在物理稳定性指标(键长 / 键角误差、位阻碰撞率)上大幅优于所有对比方法,碰撞率比 NeuralMD 低约两个数量级。配体 RMSF 皮尔逊相关系数达到 0.486,比 NeuralMD 高出 42.8%;蛋白 RMSF 相关系数 0.685,而对比方法均无法模拟蛋白构象变化。

图 4 | MISATO 测试集构象集合对比(6DGE、3FCF)。BioMD 生成的构象分布与配体扭转角分布与传统 MD 参考高度吻合。
DD-13M:配体解离路径
DD-13M 关注更具挑战性的配体解离场景。采用自回归(AR,块大小 j=5)生成策略的 BioMD-rel,在解离成功率上表现突出:单次尝试成功率 70.9%(@1),10 次尝试内成功率高达 97.1%(@10)。效率上,metadynamics 找到首条路径约需 1 小时(2654 步),BioMD 仅需 10 秒以内(50 步粗粒度帧)。

图 5 | 6EY8 配体解离路径。BioMD 不仅复现了 metadynamics 发现的两条已知路径,还独立发现了第三条新路径(绿色标注),路径 RMSD 仅 0.24 Å(metadynamics = 0.12 Å)。
ATLAS:蛋白单链动力学
在蛋白单链 100ns 动力学基准 ATLAS 上,BioMD 在 13 项指标中 9 项达到 SOTA,全局 RMSF 相关系数 0.76,比 MDGen 提升 52%,在多项分布准确性指标上也超越领先的序列方法 EBA。生成 100ns 轨迹约需 56 秒,比传统 MD 快数个数量级。
意义与展望
BioMD 想传递的信号很明确:当生成模型不只追求「一张漂亮的静态结构」,而是尝试在全原子层面给出可检验的动力学轨迹时,计算化学与药物发现或许能多一条「算得长、跑得快」的路。分层生成策略有效缓解了长轨迹中误差逐帧放大的老难题;而全原子级别的建模方式,让蛋白和配体可以被放在同一个框架里一起模拟,无需为了降低计算成本而牺牲原子级精度。
BioMD 能否真正融入工业药物发现流程,还需要在更大体系、更长时间尺度(微秒 — 毫秒)以及更多物理可观测量上接受严格检验。我们期待与开源社区共同探索更多可能。
