Skip to content

Part B(续):TD-MPC 与规划机制对比

机制三:TD-MPC,两者的桥梁

TD-MPC(Temporal Difference Model Predictive Control)[Hansen et al., 2022] 同时拥有 MPC 的前瞻规划能力和 Actor-Critic 的时序差分学习效率。

核心设计

组件作用
潜在一致性损失训练隐式动力学模型:z^t+1=f(zt,at) 应与编码器输出的 sg(zt+1) 一致
时序差分目标用 Bellman 方程更新 Q 函数(action-value function,动作价值函数,Q(s,a) 表示"在状态 s 执行动作 a、此后遵循策略所能获得的期望累计折扣奖励"):Q(zt,at)=rt+γQ(zt+1,π(zt+1)),其中 γ(折扣因子)使未来奖励指数衰减
CEM 规划在每步决策时,用 CEM 在潜在空间中搜索最优动作序列

三个组件联合训练:一致性损失塑造潜在空间,TD 目标训练 Q 函数,Q 函数再引导 CEM 搜索。

stop-gradient 的作用:一致性损失中的 sg(z_{t+1}) 表示停止梯度。如果编码器的两端都可以被梯度更新,模型可能学到一个"恒等函数",把所有状态映射到同一个点,使得一致性损失为零,但毫无意义。stop-gradient 固定住目标端,防止这种模式坍塌(mode collapse,模型找到一个退化解:把所有不同的输入都映射到同一个输出,使损失最小化但毫无意义)。

📖 Bellman 方程Q(st,at)=rt+γmaxaQ(st+1,a)。把无限步的累积奖励问题,转化为只看"一步奖励 + 下一步 Q 值"的形式。自举(bootstrapping):用模型自身的估计(如 Q(st+1,a))来作为训练目标,"用自己预测自己"。TD 学习用 Bellman 方程做 bootstrapping,使学习可以在每步都进行,无需等到 episode 结束。

TD 学习用 Bellman 方程,以"当前奖励 + 下一步 Q 值估计"代替完整展开,将有效规划深度从"模型精确步数"缩短到"1步 + Q函数的自举"。

与 DreamerV3 的对比

维度DreamerV3TD-MPC2
世界模型形式显式生成(重建像素/观测)隐式(只保证价值预测准确)
规划方式潜在空间 Actor-CriticCEM + TD
适用任务范围视觉复杂任务,需要丰富观测状态观测任务,高效连续控制
可解释性可以可视化重建潜在空间无直接语义

三种规划机制对比

维度CEM-MPCDreamer Actor-CriticTD-MPC
规划方式随机搜索策略梯度(可微)随机搜索 + TD
是否需要像素重建
长程规划能力H 限制靠 Critic bootstrapTD + MPC 结合
计算成本高(大 N中(想象展开)低-中
高维动作空间效率低梯度直接优化Q函数引导搜索
模型漏洞风险中(短视)高(policy可钻漏洞)中(TD抑制累积误差)
典型场景简单连续控制视觉复杂任务高效连续控制

本讲小结

  • 七个架构族代表了突破 GRU 记忆瓶颈的不同方向:RNN/RSSM 计算最轻、Transformer 长程依赖最强、Diffusion 视觉最真实、JEPA 最专注语义、RWM 最专注部署稳定性、Genie 从视频自动发现动作、WAM 把世界预测和动作规划统一。
  • 三种学习范式决定模型的知识边界:观察型学视觉规律但无法控制,交互型学动作因果但数据昂贵,反事实型学价值推理但可解释性弱。WAM 代表第四范式:视频作为 dense physical supervision 联合训练世界和动作。
  • 三种规划机制决定模型如何被用于决策:CEM 最直白但在高维空间效率低,Actor-Critic 最优雅但有模型漏洞风险,TD-MPC 最务实地兼顾了两者。
  • Dreamer = 交互型范式 + RSSM + 潜在 Actor-Critic,是本系列课程的核心参考系统。
  • TD-MPC = 反事实型范式 + CEM + TD,将在 P04 中亲手实现并与 Dreamer 对比。

下一讲

构建和运行世界模型之后,下一个问题是:怎么判断它好不好?L04 针对每种架构给出专属的评估指标,Dreamer 的 FID 和奖励相关性、MuZero 的 MCTS 访问熵、TD-MPC 的潜在一致性损失、STORM 的长程 PSNR,以及一个所有模型都会遇到的通用失效模式:horizon drift(时程漂移)


延伸阅读

本讲涉及的关键论文,按出现顺序排列:

基础架构

Transformer 架构

Diffusion 架构

规划机制

JEPA 系列

Genie / 可交互生成

RWM / 机器人部署

WAM / 联合学习