跳转至

荣耀发布自研龙虾AI智能体YOYO Claw技术 开创“养虾本”新品类

公众号: 机器之心 发布日期: 04月13日 抓取日期: 2026-04-14 URL: https://www.jiqizhixin.com/articles/b2fa7b12-a568-4d07-b970-c382af1f310f


Title: 上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型 | 机器之心

URL Source: https://www.jiqizhixin.com/articles/b2fa7b12-a568-4d07-b970-c382af1f310f

Markdown Content:

上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型 | 机器之心

机器之心

Image 1: 机器之心

Image 2: 未登录

登录

Image 3: empty_user 去登录

Image 4文章库Image 5PRO会员通讯Image 6SOTA!模型Image 7AI ShortlistImage 8: new-iconImage 9AI 好好用

Image 10: 机器之心

文章库PRO通讯会员SOTA!模型AI ShortlistImage 11: new-icon

AI 好好用

Image 12登录

Image 13: home

Image 14: logo文章库

Image 15: icon

Image 16: no-user登录

上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型

0%

Image 17: icon展开列表

直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单

今天

Being-H0.7

Image 18: img

在一台1970年代的PDP-11上训练Transformer需要多久?答案是5.5分钟

今天

Transformer

Image 19: img

二元成功率已经过时!PRM-as-a-Judge才是你需要的具身操作评测框架

今天

具身操作评测框架

Image 20: img

养虾「不可能三角」:好用、好玩、安全,复旦这个「00后」团队做到了!

04月13日

XSafeClaw

Image 21: img

上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型

04月13日

DENG Lab

Image 22: img

荣耀发布自研龙虾AI智能体YOYO Claw技术 开创“养虾本”新品类

04月13日

YOYO Claw

Image 23: img

13 个榜单 SOTA!明略科技正式开源GUI-VLA 模型Mano-P 1.0

04月13日

Mano-P 1.0

Image 24: img

全球第一,13个SOTA!我们找到了龙虾界掌管GUI的神

04月13日

Mano-P 1.0

Image 25: img

国内首个!加入六维力的全感知数采,让VLA模型进化出力触觉

04月13日

原生全感知力触数采系统

Image 26: img

迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品

04月13日

Latent Space

Image 27: img

大卫贝克团队从头设计小分子结合蛋白质家族:开启按需定制生物传感器的新纪元

04月13日

AI for Science

Image 28: img

ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

04月13日

LRT(Latent Reasoning Tuning)

Image 29: img

三方协同创新,北大-智源SpikePingpong算法助力智元灵犀X2彰显中国具身智能实力

04月13日

人形机器人

Image 30: img

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

04月13日

MME-Survey

Image 31: img

大佬深度解析:Coding Agent的底层运行逻辑是什么?

04月13日

Coding Agent

Image 32: img

CVPR 2026 WorldArena挑战赛启动,高德开源高性能世界模型基线

04月13日

ABot-PhysWorld

Image 33: img

陶哲轩亲调AI人设,权游小恶魔、贱女孩蕾吉娜版物理教学,你接受不

04月13日

聊天机器人

Image 34: img

Openclaw 龙虾五天五连,24小时两更,火力全开!到底更新了些什么?

04月12日

Openclaw

Image 35: img

CVPR 2026 | 摆脱相机依赖!M4Human推动毫米波人体感知迈向新阶段

04月12日

M4Human

Image 36: img

直播预约 | 世界模型,点燃下一个AI爆点

04月11日

黄大年茶思屋

Image 37: img

Image 38: avatar

机器之心 原创

8小时前

上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型

Image 39: 图片 本文作者团队来自上海交通大学 DENG Lab 与清华大学、加州大学圣地亚哥分校(UCSD)。该研究由博士生金佳纯、准博士生周泽同共同完成,指导教师为邓志杰、朱军、刘鹏飞、张昊、杨啸老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。

过去一段时间,生成理解统一模型(Unified Model)经常被理解成一种「既能看懂图、又能生成图」的多模态通用系统。

但如果统一模型的价值只停留在「会看会画」,那它和把 VLM、T2I 简单拼在一起并没有本质区别。真正更值得追问的问题是:模型能不能把自己生成出的视觉内容直接纳入推理闭环,让图像不只是输出结果,而是推理、规划乃至世界建模过程中的中间思维状态?

近期,上海交通大学 DENG Lab 提出的 LatentUM 尝试去回答上述问题。

从结果上看,这条路线确实带来了实际性能收益:LatentUM 在 GenEval 上最高达到 0.92,在 Visual Spatial Planning 任务上准确率最高达到 0.99,在导航世界模型任务上,LatentUM 在 NWM 评测上取得 ATE 1.34、RPE 0.34,超过近期 Transfusion-RAE 等统一世界模型基线。

这说明,共享语义 latent space 并不只是一个更「统一」的建模方案,它确实有机会把视觉生成变成推理与建模过程中的有效中间变量。

Image 40: 图片 * 论文地址:https://arxiv.org/pdf/2604.02097

  • 代码地址:https://github.com/SJTU-DENG-Lab/LatentUM

  • 模型仓库:https://huggingface.co/collections/SJTU-DENG-Lab/latentum

重新思考 Unified Model 的价值与存在的问题

现有多数生成理解统一模型 (Unified Model) 的目标,仍然停留在打造一个「能看又能画」的多模态六边形战士,但它们往往在理解和生成两端都不及最好的 specific model。

LatentUM 想推动大家重新思考这个方向的目标函数:Unified Model 的真正潜力,并不只是把视觉理解和视觉生成装进同一个框架里,而是在模态交错生成中把生成出的视觉内容真正纳入 reasoning loop,形成 cross-modal chain-of-thought,进一步服务于复杂视觉推理、规划乃至世界建模。

换句话说,Unified Model 最值得做的事,是让模型在推理过程中真的把图像当作中间思维载体来使用,而不是把「会看会画」本身当作终点。

Image 41: 图片 图 1:LatentUM 在带有自我反思的文生图任务、视觉空间规划任务、世界建模任务上都超越了基线模型。

基于这一观察,LatentUM 给出的核心思路是:不再让视觉生成服务于像素空间,而是让模型直接生成与语言共享语义空间的离散 visual semantic tokens。这样一来,模型生成出来的视觉内容,就可以被模型自己直接读取、继续推理,而不必再经过「像素中转」。

换句话说,LatentUM 想实现的,不是一个简单把理解和生成拼在一起的 Unified Model,而是一个真正基于 shared semantic latent space 运作的 latent-space unified model。

当前大部分 Unified Model 通常把理解和生成建立在两套不同的视觉表示上:理解侧使用与语言对齐的语义特征,生成侧使用面向像素重建的 VAE 特征。结果就是,模型一旦想基于自己生成的图继续思考,就不得不先把生成特征解码成像素,再重新编码回理解特征。这个过程不仅低效,也会引入额外的 codec bias,造成跨模态错位,限制图文交错推理能力。

也正因为如此,很多现有统一模型虽然「既能看又能画」,但在真正需要视觉中间态参与推理的任务上,并没有把 unified 的优势发挥出来。

LatentUM 的模型设计

Image 42: 图片 图 2:LatentUM 架构的三个关键设计。

围绕这一目标,LatentUM 主要包含三个关键设计。

首先是 Model Behavior Aligned Quantization(MBAQ)。由于连续语义特征维度高,难以直接进行生成建模。LatentUM 选择先将其量化为可自回归预测的离散 visual semantic tokens。传统视觉离散化方法通常追求还原像素或原始特征,但对 Unified Model 来说,更关键的是量化后的 token 能否继续支撑视觉理解与语言推理。

因此,MBAQ 不是优化重建误差,而是让量化后的视觉特征尽可能保留原始视觉特征所对应的 VLM 的理解行为。

这意味着量化器会优先保留那些真正影响视觉理解结果的语义信息,主动舍弃对预测贡献有限的低层像素细节。相比关注特征还原,MBAQ 更关注量化后的 token 是否仍然能够支持原有的视觉问答与语言推理能力。

这对于 Unified Model 尤其关键,因为只有当生成出的 visual token 仍然能够被模型自己稳定理解时,它们才能真正作为中间思维状态参与后续的跨模态推理。

第二是 Mixture-of-Modal Experts(MoME)。统一建模并不意味着所有模态都必须完全走同一套参数路径。为降低视觉理解与视觉生成之间的训练干扰,LatentUM 将理解和生成分成两条并行分支,它们共享 self-attention,但在其余部分适度解耦。

这样既保留图文之间的信息流动,也减少了不同目标之间的负迁移。虽然生成理解两套参数解耦,但模型生成的视觉 token 可以重新被理解分支直接读取并缓存进上下文,从而继续参与后续推理。

第三是 Decoupled Pixel Decoder。虽然 LatentUM 的离散语义特征不再围绕像素重建来训练,但作者们发现离散语义特征中仍然保有大部分的像素信息,可以通过一个独立的 diffusion decoder 将其恢复成像素。

这样一来,像素空间在 LatentUM 中不再是内部推理的必经桥梁,而只是一个按需调用的可视化接口,从而避免模型为了像素保真而牺牲统一语义空间本身的表达能力。

实验结果

基于上述设计,论文实现了 LatentUM-Base。模型以 InternVL3.5-4B 为初始化底座,直接继承其成熟的视觉理解能力,并在图文数据上进行训练来补足视觉生成分支,总训练成本大约是 6000 GPU hours。

实验结果首先验证了这种 shared semantic latent space 不会显著损害视觉理解能力。论文在多项理解基准上评估 LatentUM-Base,发现当输入图像被量化成离散语义 token 后,视觉理解的能力依旧在线。

这说明MBAQ 学到的 token 并不是简单压缩结果,而是真的保留了足够支撑视觉理解的语义结构

Image 43: 图片 图 3:LatentUM-Base 的视觉理解能力与基线方法的对比。

在视觉生成方面,得益于视觉 token 的语义对齐,LatentUM-Base 同样展现出了很强的 instruction-following 能力。在 GenEval 上,LatentUM-Base 达到 0.85,已经超过大多数已有 Unified Model,而且这一结果是在相对有限的数据规模下取得的。

这说明共享语义空间让模型更容易把文本条件中的语义约束真正落实到视觉 token 上

Image 44: 图片 图 4:LatentUM-Base 的文生图样例展示。

除了基本的 text-to-image generation,LatentUM 还能利用自己的理解能力反过来提升生成。

论文在 post-training 阶段探索了 generate-then-reflect 的范式:先生成,再让模型基于自己的理解分支对结果做「自检」,并通过强化学习进一步优化。仅基于自我理解 reward,LatentUM-Vis-Gen 在 GenEval 上从 0.85 提升到 0.87;如果进一步使用外部 pixel-level reward,最终可以达到 0.92,在统一模型中取得新的最好结果。

在更强调语义判断稳健性的 GenEval2 上,LatentUM 也显著领先已有 Unified Model。

Image 45: 图片 图 5:LatentUM 在 GenEval bench 上超越了 Unified Model 的基线。

为了验证共享语义 latent space 是否真的能支撑复杂的图文交错推理,论文进一步在 Visual Spatial Planning 任务上做了系统评测。

这个任务要求模型在迷宫环境中进行规划,不仅要读懂当前视觉状态,还要在推理过程中基于采取的 action 持续更新下一个未来状态。

结果上,LatentUM-Vis-Plan 在粗粒度中间状态的设定下平均准确率达到 0.85,在细粒度中间状态的逐步交错推理的设定下达到 0.99,显著超过 ThinkMorph 等需要经过像素空间中转的方法。

这说明,如果视觉内容本身就处在统一语义空间里,那么「边想边看、边看边想」并不是概念展示,而是可以带来性能增益的实际能力

Image 46: 图片 LatentUM 在 VSP 任务上的 demo。

Image 47: 图片 图 6:LatentUM 在 Visual Spatial Planning bench 上大幅超越了各类跨模态推理基线。

最后,论文还进一步探索了 LatentUM 在 world modeling 中的潜力。

在导航世界模型设定下,LatentUM-WM 在 NWM 评测上取得 ATE 1.34、RPE 0.34,超过了近期 Transfusion-RAE 这类统一世界模型基线。

这说明 shared semantic latent space 也许不仅是连接理解和生成的一种方法,也可能是连接推理与世界建模的一条自然路径

Image 48: 图片 LatentUM 在 navigation world modeling 任务上的 demo。

从更大的角度看,LatentUM 想推动大家重新思考 Unified Model 的目标。它不应该只是把「看」和「画」放进同一个模型里,而应该成为一个能够在共享语义空间中进行交错生成、反思、规划与预测的通用多模态系统。

对 Unified Model 来说,真正重要的,也许从来不是「既会看又会画」,而是能不能在共享语义空间中用各种模态持续地生成、推理。