Skip to content

扩散世界模型与时程漂移

扩散世界模型(Diamond

Diamond(2024)是第一个将扩散过程与强化学习训练循环直接结合的世界模型,在 Atari 100k 基准上以平均 HNS 1.46 超越了之前所有世界模型方法。扩散模型以历史帧和动作为条件,逐步去噪生成下一帧,每一步去噪都是一次完整的 U-Net 前向传播。这带来了出色的生成保真度,代价是生成速度慢和物体持久性维护困难。

FVD(序列动态质量)

同 STORM 一节所述,FVD 是扩散世界模型序列质量的首选报告指标。Diamond 论文中报告的 FVD 已经低于 Atari 真实游戏帧,说明生成质量在统计意义上接近真实。

物理一致性

这是扩散世界模型的特有挑战:高保真的逐帧生成不代表物理关系在序列中保持一致。具体表现:一个物体从桌面掉落,每帧单独看都很逼真,但物体落地后可能在下一帧又"弹回"桌面,违反了重力和持久性约束。

评估方法:在评估序列上运行一个物体追踪器(如 SAM2,Segment Anything Model 2,Meta 2024 年发布的视频分割追踪模型,可在视频中实时追踪任意指定物体的掩码;或 DINO 特征匹配,一种基于自监督 Transformer 预训练的视觉特征提取器,同一物体在不同帧中的 DINO 特征向量相似度高,可用于跨帧对应关系匹配),追踪关键物体在连续帧间的位置轨迹,标记出违反连续性的跳变帧(帧间位移超过合理阈值)。物理一致性得分是无违规帧占总帧数的比例,越高越好。

动作条件保真度

扩散世界模型以动作为条件生成下一帧,但"条件"的注入方式决定了生成帧与动作的对齐程度。若动作信号只在 U-Net 的少数层注入,模型可能忽略动作条件,生成"视觉上合理但与动作无关"的帧。

评估方法:取同一初始帧,分别用两个相反动作(如"左移"和"右移")条件生成 5 步展开,检验两条轨迹的分歧是否与动作预期一致。保真度指标为动作方向分歧率:在 k 步内,生成轨迹的运动方向与动作方向一致的比例。低于 0.7 说明动作信号被模型弱化。

Diamond 扩散世界模型的时程漂移:生成帧质量随展开步数的衰减
Alonso et al. (2024) Diamond 的漂移诊断图:随着自回归展开步数增加(横轴),生成帧与真实帧的差异(纵轴)系统性累积。扩散模型的每帧独立去噪特性使物体身份、位置和遮挡关系随步数逐渐失真,这是扩散世界模型区别于 RSSM 和 Transformer 的特有漂移模式。

深度违规率(Depth Violation Rate)

这是 Diamond 评估体系中最具体的自动化诊断指标。物理一致性违规在视觉上最显著的表现是三维关系颠倒:本应在前景的物体出现在背景物体后面,或两个物体的遮挡关系在连续帧间发生反转。

计算流程

  1. DepthAnything(一种单目深度估计模型,仅用单张 RGB 图像即可估计场景中每个像素的相对深度,无需双目摄像头或激光雷达)对每帧估计单目深度图
  2. 用 DINO 特征(见上文物理一致性评估方法)对关键物体在相邻帧间做特征匹配,追踪同一物体
  3. 检查同一物体在相邻帧的深度值是否发生突变(变化超过总深度范围的 20%)
  4. 深度违规率 = 违规帧对数 / 总相邻帧对数

诊断规则:深度违规率超过 10%,需在 U-Net 的每一个分辨率层都注入动作信息(而非只在 bottleneck 注入),同时考虑在损失函数中加入深度一致性约束(相邻帧的深度图 L1 差异惩罚)。


时程漂移:所有世界模型的共同失效模式

所有架构在足够长的展开步数下,都会出现潜在状态或生成内容与真实世界分布的系统性偏离,这是时程漂移(Horizon Drift)。漂移的具体形式因架构而异:

架构漂移表现
RNN/RSSM潜在向量 z_t 偏离真实观测的对应区域,PSNR 下降
Transformer(STORM)自回归误差累积,token 预测残差逐步放大
扩散(Diamond)物体身份、位置、遮挡关系在长序列中悄悄改变
TD-MPC潜在空间一致性损失上升,规划效率下降

检测:漂移曲线

标准检测流程:从一批真实起始状态出发,让模型自回归展开 N 步(不注入任何真实帧校正),在每一步计算预测状态与真实状态的距离指标(PSNR、FVD 片段、或余弦相似度),画出距离随步数的曲线。

理想曲线:前 5-10 步近似线性上升,随后趋于平台。

危险信号:前 5 步内指标骤降超过原始值 30%,说明模型的单步预测误差过大,展开能力基本失效;或者前 20 步内单调递减不见收敛,说明误差持续累积,模型无法在展开中维持合理的状态分布。

缓解策略

1. 短时域训练(Short Horizon Training)

把训练时的展开步数限制在模型能可靠预测的范围内,而非强行用长序列训练。对大多数架构,4-8 步是比较稳健的训练窗口。长序列训练在梯度上更嘈杂,反而可能让单步精度变差。这不是妥协,而是认识到"会预测 1 步"比"勉强预测 20 步"对规划更有用。

2. 目标网络(Target Network)

在计算时序差分(TD)目标时,使用一个参数更新更慢的副本网络(target network)而非主网络。这截断了误差沿时间方向的反向传播,减少了单步预测误差的跨步积累。TD-MPC 和 Dreamer V3 都采用了这个技巧。

3. 真实数据补充(Real Data Interleaving)

在想象展开的 minibatch 中,周期性地插入真实轨迹,让模型的梯度不会完全由模型自身的预测结果驱动。比例建议:每 4 步想象展开插入 1 步真实数据(25% 真实数据比例)。这对防止 RSSM 的 KL 崩塌也有附带效果。

4. 展开步数自适应(Horizon Annealing)

训练初期用短展开(如 1-2 步),随着模型单步精度提升,逐步增加展开步数(如每 10k 步增加 1 步,上限 8 步)。这避免了训练初期用劣质预测来监督模型自身,减少了自举误差。


延伸阅读