五模型总结、落地策略与课程展望

总结对比表

模型	主要指标	新增诊断指标	常见失效模式	诊断方法
Dreamer（RSSM）	重建 FID、奖励相关性 `ρ`	想象轨迹熵（KL 崩塌预警）	编码器退化、想象奖励失真、KL 崩塌	FID 上升 → 降低编码器 LR；`ρ` 下降 → 增大潜在维度；熵趋零 → KL 退火/free bits
MuZero（隐式）	价值准确度、MCTS 访问熵	表示稳定性（余弦相似度 > 0.95）	价值估计偏差、假置信、表示不稳定	准确度低 → 重训奖励模型；熵判断需结合任务随机性；稳定性低 → 增大网络宽度或加对比损失
TD-MPC（潜在 MPC）	潜在一致性损失、规划效率	latent space t-SNE 可视化（局部同构性）	表示崩塌、短视规划	去掉 sg 损失更低 → 崩塌；协方差 rank 低 → 崩塌；效率低 → 增大 elite ratio
STORM（Transformer）	Token 预测损失、长时域 PSNR	FVD（I3D 特征，序列动态质量）	Teacher forcing 差距，自回归漂移	PSNR 骤降 → 缩短上下文窗口；调试用 PSNR，策略评估用 FVD
扩散世界模型（Diamond）	FVD、物理一致性、动作条件保真度	深度违规率（DepthAnything + DINO 自动评估）	物体永久性丧失、3D 关系颠倒	深度违规率高 → 引入 3D 约束；保真度低 → 每层注入动作信息

三种务实的落地方式

根据风险偏好和系统成熟度，真实部署世界模型有三种递进的策略：

1. 旁路评估器（Shadow Evaluator）

真实 policy 照常执行，world model 在旁边独立预测未来，和真实发生的结果做对比，但不介入控制。这个方式用来系统地发现"模型在哪些物体类型、哪些动作范围、哪些接触状态上不可靠"，建立可靠性地图（reliability map）。风险最低，适合刚开始部署的早期阶段。

2. 动作候选过滤器（Action Filter）

Policy 先提出多个候选动作（如 MPC 产生的 N 条轨迹或 Actor 采样的 K 个动作），World model 预测每个动作的后果，过滤掉两类动作：（a）预测后果明显危险（如预测到碰撞或物体掉落），（b）不确定性超过阈值（即 world model 对这个动作的后果没有把握）。最终执行剩余候选中奖励最高的动作。

3. 闭环规划器或训练环境（Closed-loop Planner / Imagined Training）

World model 进入 MPC 的 rollout 或 imagined rollout，直接用于在线规划或 policy 的离线训练。这是 Dreamer 和 TD-MPC 的标准用法。收益最大（可以在想象中探索大量状态，无需真实交互），风险也最大（model exploitation、安全漏洞、分布偏移都会直接影响 policy 质量）。只在世界模型经过充分验证（旁路评估器阶段通过）后才推荐使用。

课程总结

四讲走下来，每讲解决了一个具体问题：

L01: 内部仿真与历史脉络 从 Craik 的"心理模型"（1943）出发，历经 1950s RNN 萌芽、2018 Ha&Schmidhuber 的 World Models 论文、2019 Dreamer 的端到端成熟，到 2023 JEPA 的现代范式，建立了世界模型演化的历史直觉。

L02: 观测编码与潜在动力学 Part A 实现了 VAE 编码器：CNN 将 64×64 图像压缩为潜在向量 z，ELBO 损失（重建项 + KL 项）约束潜在空间。Part B 从 GRU 出发，逐步演进到 MDN-RNN，最终到达 RSSM，确定性状态 h_t + 随机状态 z_t 的双轨架构成为 Dreamer 的基石。

L03: 架构模式、学习范式与规划方法 以你在 P02 实现的 RSSM 作为 RNN 基线，横向对比了七大架构族（RNN/RSSM、Transformer、Diffusion、JEPA、RWM、Genie、WAM），厘清了四种学习范式，并梳理了 CEM-MPC → 潜在 Actor-Critic → TD-MPC 的规划链路。

L04: 按模型评估（本讲） 评估不是"打分"而是"诊断"。每种架构有其专属的失效模式，需要对症的指标才能发现问题。潜在漂移是所有世界模型共同面临的长时域挑战，缓解它需要短时域训练、目标网络和持续的真实数据补充。

从理论到部署：展望

世界模型正在成为具身智能的关键基础设施，不论是游戏 AI（MuZero 征服围棋）、机器人操作（Dreamer 学习抓取）还是自动驾驶（Wayve 的 GAIA），世界模型都在承担"内化物理世界规律、减少真实交互需求"的核心角色。

但这门课所覆盖的内容，更多是实验室里的世界模型。从实验室到真实部署，还有很多未解决的工程问题：如何在分布外状态下安全降级？如何把 uncertainty 有意义地传递给控制器？如何在在线部署中持续更新世界模型而不引入灾难性遗忘？

这些问题没有标准答案，但你现在已经有了正确提问所需要的工具：理解架构、诊断失效、选择指标。这正是本课程想要传递的核心能力，不是告诉你什么是正确的世界模型，而是教你如何判断一个世界模型在哪里是错的。

下一讲

L05 不再有代码，只有争论。语言是世界模型的"鸦片"还是必要工具？LLM 是 Bitter Lesson 的胜利还是背叛？AGI 是目标还是伪命题？这些问题没有标准答案，把最锋利的论点摆出来，留给你自己判断。

如果想在本讲指标之外，看看世界模型在标准化交互任务上的横向比较，World Arena 是一个社区基准平台，在交互预测任务上对各模型进行正面对比评测。

完成 P05：构建一个并排展示 Dreamer / TD-MPC / STORM 所有指标的评估仪表盘，将本讲的理论落地为可交互的实验证据。仪表盘应当覆盖：重建 FID、奖励相关性、一致性损失、Token 预测损失、长时域 PSNR、FVD，以及可视化的潜在漂移曲线。

五模型总结、落地策略与课程展望 ​

总结对比表 ​

三种务实的落地方式 ​

课程总结 ​

从理论到部署：展望 ​

下一讲 ​

五模型总结、落地策略与课程展望

总结对比表

三种务实的落地方式

课程总结

从理论到部署：展望

下一讲