Skip to content

Part A(续二):Genie、WAM 与架构选型

Genie:从视频隐式发现动作

代表系统:Genie (Google DeepMind, 2024)、Genie 2 (2024)

前五个架构族都有一个共同假设:训练数据要么包含动作标签(交互型),要么完全不需要动作(观察型)。Genie 打破了这个二分法:从无标注互联网视频中,自动发现隐式的 latent action。

训练数据是大量人类玩游戏、操作物体的视频片段,没有任何动作标签。Genie 同时训练三个模块:视频 tokenizer(ST-ViT,Spatiotemporal Vision Transformer,时空视觉 Transformer,将视频片段在时间和空间两个维度上同时做 patch 分割和编码,输出时空离散 token)将帧序列压缩为时空离散 token;latent action model(LAM,latent action model,潜在动作模型,从相邻帧对中学习推断帧间变化的类型)从相邻帧对中推断离散的 latent action code;dynamics model 以 latent action 为条件预测下一帧 token 序列。推理时,用户可以指定一个 latent action,模型据此生成下一帧,整个过程完全可交互。

📖 latent action:不是键盘上的"向左"或关节空间的力矩,而是一个纯粹从视频帧差异中归纳出的离散编码。它捕捉的是"相邻帧之间发生了什么类型的变化",而非具体的物理动作。两段视频如果场景变化模式相似(如"某物体向右移动"),它们的 latent action code 就应该相同,无论实际拍摄的是游戏还是机器人操作。

Genie 架构:ST-ViT tokenizer、LAM latent action model 和 MaskGIT dynamics model 三模块
Bruce et al. (2024) Genie 的三模块设计:ST-ViT 将视频帧序列编码为时空离散 token;LAM 从相邻帧对中推断离散 latent action code(无需任何动作标注);动力学模型以 latent action 为条件,用 MaskGIT 自回归预测下一帧 token 序列。

Genie 在 3 万小时的平台游戏视频上训练(无动作标注),11B 参数,论文以 ΔtPSNR(推理时 PSNR 相对于 teacher forcing 基线的下降量)衡量生成质量衰减速度,作为 latent action 对齐程度的代理指标。Genie 的意义在于把"动作标注"这个瓶颈绕开了:互联网上有海量视频,但几乎没有配套的机器人动作标签。Genie 2 进一步扩展到 3D 场景,能在给定单张图像后生成完整的可交互 3D 世界。Bi et al. 于 2025 年发布的 Motus(A Unified Latent Action World Model)在具身操作任务上验证了类似思路,通过统一的 latent action 表征从异构视频数据中提取动作知识,再用少量有标注数据对齐到真实控制,实现跨具身迁移。

学习范式:介于观察型和交互型之间。训练只用视频(观察型),但推理时支持动作条件生成(交互型)。这个思路直接启发了后来的 WAM 系列。

局限:latent action 是自动归纳的,不与真实物理动作对齐,无法直接用于机器人控制。从 latent action 到真实 policy 仍需额外的对齐步骤。


架构六:从 World Model 到 World Action Model(WAM)

代表系统:Motus (2025, Bi et al.)、DreamZero / WAM (NVIDIA 2026)

Genie 证明了"从视频隐式发现动作表征"这条路可行。WAM 系列接过这个思路,进一步追问:世界模型和策略模型,真的需要是两个分开的模块吗?

范式输入输出
世界模型观测 + 动作未来观测或状态
VLA(Vision-Language-Action model,视觉语言动作模型)观测 + 语言指令动作
WAM观测 + 语言指令未来观测 + 动作

传统的 World Model 以动作为输入、预测未来状态,是 policy 旁边的一个 simulator。VLA 绕过了世界模型,直接从视觉和语言指令预测动作,是一个端到端的 reactive policy。WAM 试图同时做两件事:预测世界的未来状态,同时预测应该采取的动作。世界的视觉演化成为动作学习的 dense supervision(密集监督,与只在 episode 结束时给出奖励的稀疏监督相对,每一帧的视频内容都提供梯度信号,使学习信号更丰富、更频繁),而不只是一个辅助任务。

Motus(Bi et al., 2025)引入了统一的 latent action 表征:从异构视频数据(包括大量没有动作标签的人类视频和机器人演示)中自动抽取连续 latent action,再用少量有机器人真实动作标签的数据对齐。Motus 的核心贡献是把"从无标注视频中发现 latent action"和"用少量对齐数据迁移到真实控制"两个步骤整合进一个统一框架,在灵巧操作和运动任务上验证了跨具身迁移能力。

DreamZero / WAM 系列(NVIDIA 2026)用预训练的 video generation backbone 同时预测未来世界状态和机器人动作,用视频序列作为 dense supervision。NVIDIA 的 WAM(World Action Models)论文明确提出"WAM 是 zero-shot policy",预训练的视频生成模型可以直接作为策略推理引擎,无需额外 RL 微调:

范式监督信号损失
VLA观测序列 → 动作序列仅动作损失
WAM观测序列 → 未来帧序列 + 动作序列视频重建损失 + 动作损失,相互增强

学习范式:第四范式,联合学习。视频和动作是同一个物理过程的两个侧面。WAM 利用视频的 dense physical supervision,让 policy 学习物理运动和动作后果,而不只是做 action regression。

这批论文揭示的新趋势:world model 不再只是 policy 旁边的 simulator,而是 policy 本身的一部分。传统 model-based RL 框架里,world model 和 policy 是两个分离的模块。WAM 系列正在打破这个分离,训练一个同时建模世界动态和决策逻辑的统一模型Cosmos(NVIDIA 2025)则走得更远:作为通用物理 AI 基础模型,它在海量真实世界视频上预训练,然后针对自动驾驶、机器人等下游任务微调,把 world model 的概念从"单任务模拟器"推向"通用物理世界基础设施"。


对比总结表

架构族学习范式核心优势主要劣势典型适用场景
RNN / RSSM交互型计算开销低、延迟小长时记忆弱、生成质量有限在线 RL、实时控制
Transformer交互/观察长程依赖强、并行训练快计算量随序列二次增长复杂游戏、多步规划
Diffusion观察/交互视觉真实度极高推理慢、难实时控制离线仿真、视频生成
JEPA观察型鲁棒高效、忽略无关噪声无像素输出、控制应用尚不成熟语义表示预训练
RWM交互型长程 rollout 稳定、policy 不漂移计算开销高(集成)机器人高频控制、sim-to-real
Genie观察→交互无需动作标签即可支持交互生成latent action 与真实动作不对齐可交互视频生成、数据预训练
WAM联合学习世界预测与动作规划联合优化架构复杂、数据需求大具身智能、灵巧操作

如何选择架构?

实践建议:从 RNN/RSSM 起步,P02 已经帮你走完这一步。遇到瓶颈再升级:长序列预测精度持续下跌、或任务需要跨多步因果推理,再考虑切换 Transformer。Diffusion 留给离线场景。JEPA 控制接口尚不成熟,但表示学习任务已有实质结果,值得跟踪。有大量无标注视频但缺乏动作标签时,Genie 的 latent action 发现机制是目前最直接的切入点,但要做真实控制还需要对齐步骤。做真实机器人,Self-Forcing 和 ensemble uncertainty 这类工程手段比换架构更重要,先把长程稳定性解决掉。