阿里ATH发布AI开发工具Meoo，可一键开发一键部署¶

公众号: 机器之心 发布日期: 04月15日 抓取日期: 2026-04-16 URL: https://www.jiqizhixin.com/articles/2749a65c-4e39-45ee-9145-9323d090f2cb

Title: 从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式｜机器之心

URL Source: https://www.jiqizhixin.com/articles/2749a65c-4e39-45ee-9145-9323d090f2cb

Markdown Content:

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式｜机器之心¶

机器之心¶

登录

去登录

文章库 PRO会员通讯 SOTA！模型 AI Shortlist AI 好好用

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用

登录

文章库

Image 16: no-user 登录

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

0%

展开列表

2026具身智能数据赛道，卷出了一匹「黑马」

04月15日

觅蜂科技（Maniformer）

Image 18: img

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

04月15日

视频生成

Image 19: img

阿里ATH发布AI开发工具Meoo，可一键开发一键部署

04月15日

Meoo（秒悟）

Image 20: img

构建跨越时空的微观实验室：KIMMDY 仿真器实现秒级生物化学反应的动态模拟

04月15日

AI for Science

Image 21: img

实测参考生之王Vidu Q3：这已经不叫AI生成了，这叫AI驱动整个剧组

04月15日

参考生视频

Image 22: img

刚刚，李飞飞世界模型开源了个渲染神器

04月15日

Spark 2.0

Image 23: img

北大联合Llama-Factory推出DataFlex：工业级数据动态训练系统

04月15日

DataFlex

Image 24: img

离谱！我的新上班搭子，居然是个超靠谱的AI

04月15日

TuriX Superpower

Image 25: img

昨天，英伟达开源个量子AI，拉爆美股量子计算概念

04月15日

量子计算

Image 26: img

可用即脆弱？VENOM击穿纵向联邦学习

04月15日

CVPR 2026

Image 27: img

腾讯轻量云独家上线Hermes Agent应用模板 AI智能体云端部署一云搞定

04月15日

Image 28: img

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？

04月15日

OccuBench

Image 29: img

「国家队」下场，德塔智能连续三轮融资超亿元，押注原生人形机器人基础模型

04月15日

具身智能

Image 30: img

OpenAI也搞「Mythos」？刚刚，网络安全版GPT-5.4-Cyber亮相

04月15日

GPT-5.4-Cyber

Image 31: img

速来！巴西不仅有足球，也有蚂蚁的ICLR 2026学术派对

04月14日

蚂蚁集团

Image 32: img

数学的上帝粒子！一个运算符能导出所有基本函数

04月14日

EML

Image 33: img

迎接智能体的「觉醒时刻」：EverOS全球公测开启Agent Memory自进化序章

04月14日

EverOS

Image 34: img

写Verilog、调CUDA，总翻车？工业代码大模型开始学会「先想后写」了

04月14日

北京航空航天大学

Image 35: img

火山引擎：Seedance 2.0 API 服务全面开放

04月14日

火山引擎

Image 36: img

目标更重要？国内公司超越Generalist，进化到动作中心世界模型

04月14日

极佳世界

Image 37: img

机器之心原创

8小时前

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

Image 39: Image 在生成式视频快速发展的今天，模型已经能够生成高质量的短视频片段，但一个更具挑战性的问题正逐渐成为研究焦点：

如何生成长时间、可连续演化的视频序列？当生成从 “几秒” 走向 “长时序” 时，问题开始显现：视角变化带来的结构漂移、时间推进中的内容不一致，使得视频在空间与时间维度上难以保持稳定，往往 “走着走着就乱了”。

与此同时，如何让视频生成具备可控性，能够沿指定路径连续移动，也成为实际应用中的关键需求。

近日，来自 University of California, Irvine、University of California, San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究者共同提出了 OmniRoam，一种面向轨迹可控长视频生成的新方法。

Image 40: 图片 * 论文标题：OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

项目主页：https://yuheng.ink/project-page/omniroam/
文章链接：https://arxiv.org/pdf/2603.30045
代码链接：https://github.com/yuhengliu02/OmniRoam

该工作通过引入全景视频作为统一表示，并结合 coarse-to-fine 的分阶段生成框架，在长时序条件下显著提升了视频的空间一致性与时间连贯性，使模型能够生成沿指定路径连续演化的视频序列，迈出了从 “片段生成” 走向 “连续过程生成” 的关键一步。

Image 41: 图片 一、轨迹控制的视频预览先生成 “可控路径”

OmniRoam 首先生成一个中等分辨率的全景视频预览，用于确定整体路径与场景结构。

核心在于将相机轨迹拆解为 flow（方向）和 scale（步长）两个控制量：前者刻画运动方向，后者控制移动幅度，从而实现更清晰的轨迹建模。在实现上，模型将输入与目标视频在时间维拼接，并通过 flow 与 scale 进行条件调制，使生成过程既保持内容连续，又具备明确的路径约束。

二、长时序视频细化从预览到高质量生成

在 preview 基础上，OmniRoam 进一步进行长时序细化生成。由于 preview 通常采用较大 scale（类似 “快进”），refinement 阶段会通过 scale 对齐，将视频扩展为更长、更接近真实速度的序列。

关键设计是 visibility mask：每个时间段只选取少量 preview 帧作为条件输入，在保留结构锚点的同时避免冗余。随后模型对各个 segment 进行高分辨率生成，并拼接得到最终长视频。

这种从 “全局预览” 到 “局部细化” 的过程，有效缓解了长序列中的误差累积问题。

Image 42: 图片 三、新数据集与评测基准支撑长视频生成

为支持该任务，OmniRoam 构建了专门的数据与评测体系。在表示上，文章定义了一个 canonical panoramic coordinate system，去除相机自旋转，仅保留平移，从而简化轨迹建模。数据方面结合真实与合成两部分：真实全景视频提供多样场景，合成数据提供精确轨迹监督，并通过路径规划保证运动合理性。在评测上，提出 loop consistency 指标，要求视频沿闭环路径生成后既能回到起点，又保持中间过程的合理变化，更好衡量长时序一致性。

Image 43: 图片 四、实验结果一致性与可控性的显著提升

实验结果表明，OmniRoam 在画质、轨迹控制和长时序一致性上均优于现有方法。

在定性结果中，模型能够稳定沿指定路径生成连续视频，显著减少结构漂移与内容崩塌；而在定量指标上（如 FAED、SSIM、LPIPS 及 loop consistency），均取得更优表现。

Image 44: 图片进一步分析显示，全景表示与两阶段生成设计是性能提升的关键，使模型在长视频场景下依然保持稳定与可控。文章重点分析了在长视频（641 帧）条件下不同方法的表现，包括自回归生成与基于透视表示的方法。为了进一步分析长时序一致性，作者设计了闭环轨迹实验，并用 CLIP 相似度衡量模型是否能够 “走回原点”。理想情况下，随着相机逐渐远离起点，相似度应逐步下降；而在轨迹闭环时，相似度应重新上升。相似度在中段下降，在末尾重新回升，说明模型具备较强的长期空间记忆能力。

Image 45: 图片 五、扩展与应用从实时预览到 3D 场景生成

除了长视频生成能力，OmniRoam 还展示了在效率与 3D 任务上的潜在应用。

在效率方面，作者基于 self-forcing 机制，将完整模型蒸馏为一个轻量级自回归预览模型，实现实时视频生成。该模型在保持整体场景结构的同时，可在约 7 秒内生成 81 帧全景视频，相比原始模型显著加速，为交互式应用提供了可能。同时，还支持先生成低分辨率视频，再通过 refinement 模块提升至更高分辨率（如 720p）。

在 3D 应用方面，OmniRoam 生成的长视频可直接用于 3D 场景重建。作者从生成视频中均匀采样关键帧，并提取多个透视视角输入到 3D Gaussian Splatting（3DGS）中进行重建。实验结果表明，生成视频在不同视角间保持良好的一致性，能够恢复出结构连贯的 3D 场景。

这些结果表明，OmniRoam 不仅可以生成长时序视频，还能够作为上游模块，为实时交互与 3D 内容构建提供支持。

Image 46: 图片 六、总结长视频生成迈向 “可持续演化”

OmniRoam 的核心贡献，并不只是生成更长的视频，而是在长时序条件下，实现了更稳定、更可控的生成过程。通过全景表示提供全局空间约束，并结合 trajectory-controlled preview 与 long-horizon refinement 的两阶段设计，模型能够在长时间范围内有效抑制漂移，维持结构与语义的一致性。

这也反映出一个更重要的趋势：

视频生成的挑战，正在从 “生成更清晰的内容”，转向 “如何在更长时间内保持一致性与连贯性”。在这一背景下，OmniRoam 提供了一种可行路径，使生成模型能够沿指定轨迹持续演化，为长视频生成、虚拟漫游等场景奠定了基础。

如果说短视频生成解决的是 “生成一段内容”，那么长时序生成更关心的是 —— 模型能否在时间推移中持续 “记住并延续” 这个场景。

阿里ATH发布AI开发工具Meoo，可一键开发一键部署¶

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式 ｜ 机器之心¶

机器之心¶

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式｜机器之心¶