Skip to content

TD-MPC 的专属指标

TD-MPC(潜在 MPC)

你在 P04 用 CEM 射击法实现了 TD-MPC,并与 P03 的 Dreamer Actor-Critic 做了奖励对比。

TD-MPC 的核心是:编码器 h = enc(o) 在不同时间步产生的表示必须彼此一致,MPC 才能在潜在空间中进行有效规划。

潜在一致性损失(Latent Consistency Loss)

Lconsist=sg(ht+1)f(ht,at)2

其中 f 是动力学函数,sg 表示停止梯度(stop-gradient)。这个损失衡量"动力学函数预测的下一状态"与"编码器直接编码的下一观测"之间的距离。

诊断规则(表示崩塌):如果去掉 sg 后一致性损失反而更低,说明编码器已退化为恒等映射,把所有状态压缩到同一个点。正式诊断:在验证集上检查潜在向量的协方差矩阵秩,秩接近 1 即为崩塌(sg 机制详见 L03 Part B TD-MPC 一节)。

诊断规则(训练震荡):一致性损失在训练中震荡(不稳定地上下波动)而非单调下降,学习率过高,或编码器和动力学函数的梯度尺度不匹配。尝试将学习率降低一个数量级,或对编码器使用独立(更小的)学习率。

潜在空间可视化(Latent Space Visualization)

这是一个强大的定性诊断工具,可以在量化指标之外提供直觉性的洞察。

实验方法:在二维连续控制任务(如 Pendulum 或 HalfCheetah)中,收集一批状态-动作轨迹,用编码器将所有观测映射到潜在空间,然后用 t-SNE(t-distributed Stochastic Neighbor Embedding,一种非线性降维算法,将高维向量映射到二维平面,使原本在高维中相近的点在二维中也尽量相近,常用于可视化高维表示的聚类结构)将高维潜在向量降到二维,可视化结果。

健康的 TD-MPC latent space 应该满足

  • 把"物理上接近的状态"(如摆杆角度相似的状态)映射到"latent space 中接近的点",局部同构性
  • 不同动作从同一状态出发产生的轨迹在 latent space 中方向一致,动作可预测性
  • 随着 rollout 步数增加,轨迹在 latent space 中平滑移动,而不是随机跳跃

诊断规则:t-SNE 图中,同类状态(如"摆杆直立"状态)散布在各处而非聚集,latent space 几何结构混乱,MPC 在这个空间里做的规划没有物理意义。

TD-MPC 架构总览:编码器、隐式动力学、Q 函数与 CEM 规划
Hansen et al. (2022) TD-MPC 架构:编码器、隐式动力学函数、Q 函数、CEM 四模块协同工作。潜在一致性损失(sg(z_{t+1}) 与 d(z_t, a_t) 对齐)确保动力学函数与编码器保持一致,防止表示坍缩。这是 TD-MPC 专属指标的诊断起点。

规划效率(Plan Efficiency)

定义为:从随机初始化策略出发,达到某个目标奖励阈值(如最优策略的 80%)所需的 MPC 规划步数。步数越少,规划效率越高。

诊断规则:规划效率低(需要大量步数才能收敛),CEM 的精英样本比例(elite ratio)设置过低,或规划时域(horizon)过短,导致短视规划错过长程奖励。