Part B：潜在动力学

编码器不够用，我们需要预测未来

有了 VAE 编码器，我们能把当前帧 $o_{t}$ 压缩为 $z_{t}$ 。但世界模型的核心任务是预测未来：

在潜在空间中，给定当前状态 $z_{t}$ 和动作 $a_{t}$ ，预测下一时刻的状态 $z_{t + 1}$ 。

这个预测能力让智能体可以在脑海中"模拟"未来，从而在不真实执行动作的情况下规划决策，这正是世界模型节省样本的关键所在。

最简单的动力学：GRU

门控循环单元（GRU，Gated Recurrent Unit） 是序列建模的基础工具。作为动力学模型，GRU 接收 $(z_{t}, a_{t})$ 并预测下一潜在状态：

z_{t + 1} = GRU (z_{t}, a_{t}; θ)

📖 GRU 内部机制（简要）：GRU 通过两个"门"控制信息流：**重置门（reset gate）**决定"遗忘多少过去"，**更新门（update gate）**决定"保留多少旧状态 vs 写入新信息"。门的值介于 0-1 之间，由当前输入和上一隐状态共同决定。这使 GRU 能够选择性地记住长期依赖，同时忘记无关信息，比普通 RNN 更擅长处理较长序列。相比 LSTM，GRU 少一个门（无单独的记忆细胞），参数更少，训练更快。

GRU 的优点是简单、训练稳定；缺点是输出确定性预测，无法表达不确定性。真实环境中，同一动作可能导致多种不同结果（例如：推箱子可能成功，也可能被卡住）。

MDN-RNN：建模不确定性

MDN-RNN（Mixture Density Network + RNN） 在 Ha & Schmidhuber（2018）的 World Models 论文中提出，用混合高斯分布对下一状态的不确定性建模：

p (z_{t + 1} | z_{t}, a_{t}) = \sum_{k = 1}^{K} π_{k} \cdot N (z_{t + 1}; μ_{k}, σ_{k}^{2})

$K$ 个高斯分量，每个有自己的均值 $μ_{k}$ （分布中心）、方差 $σ_{k}^{2}$ （分布宽度）
混合权重 $π_{k}$ ：第 $k$ 个高斯分量的概率质量，满足 $\sum_{k = 1}^{K} π_{k} = 1$ ， $π_{k} \geq 0$ 。可以理解为"第 $k$ 种未来发生的概率"。网络输出 $π_{k}$ 后通过 softmax 函数归一化，确保所有权重之和为 1。

MDN-RNN 能捕捉多峰分布：环境可能跳到多个不同的下一状态，模型都能表达。

MDN-RNN：混合密度网络与 RNN 的结合，输出多峰高斯混合分布 — Ha & Schmidhuber (2018) 的 MDN-RNN 结构：RNN 隐状态经全连接层输出 K 组参数 (π_k, μ_k, σ_k)，分别表示混合权重、均值、方差，共同定义下一潜在状态的混合高斯分布。

RSSM：分离确定性与随机性

RSSM（Recurrent State Space Model，循环状态空间模型） 是 Dreamer 系列论文的核心创新，它将状态分为两部分：

确定性隐藏状态 $h_{t}$ ：由 RNN 维护，汇聚历史轨迹信息，没有随机性
随机潜在状态 $z_{t}$ ：从以 $h_{t}$ 为条件的分布中采样，表达当前的不确定性

RSSM 的核心方程：

📖 参数下标 $ϕ$ （phi）：公式中的 $f_{ϕ}$ 、 $p_{ϕ}$ 、 $q_{ϕ}$ 里的下标 $ϕ$ 表示"这个函数的参数是 $ϕ$ "，即神经网络的可学习权重。 $f_{ϕ} (\cdot)$ 读作"以 $ϕ$ 为参数的函数 $f$ "。训练时，梯度下降更新 $ϕ$ ，让这些函数的预测越来越准确。同理，后面出现的 $θ$ （theta）也是另一组可学习参数的常用符号。

h_{t} = f_{ϕ} (h_{t - 1}, z_{t - 1}, a_{t - 1}) （确定性更新，GRU/RNN）

z_{t} \sim p_{ϕ} (z_{t} ∣ h_{t}) （先验 prior：不看真实观测，仅凭历史记忆 h_{t} 猜测当前状态；用于纯想象/预测）

z_{t} \sim q_{ϕ} (z_{t} ∣ h_{t}, o_{t}) （后验 posterior：在先验基础上，结合真实观测 o_{t} 修正估计；训练时使用）

📖 先验 vs 后验：这是贝叶斯统计的基本概念。先验（prior）是"看到数据之前的信念"，RSSM 依据历史记忆 $h_{t}$ 对当前状态 $z_{t}$ 的猜测。后验（posterior）是"看到数据之后更新的信念"，用真实观测 $o_{t}$ 修正先验，得到更准确的估计。训练时用后验产生 $z_{t}$ 并计算 KL 损失（衡量先验与后验的差距）；推理/想象时只有先验可用（没有真实 $o_{t}$ ），RSSM 纯靠先验向前滚动。

为什么要分离？

状态	角色	特性
$h_{t}$	记忆	确定性，汇聚历史
$z_{t}$	感知	随机性，表达不确定性

分离后，模型可以在没有真实观测的情况下，仅用先验 $p (z_{t} | h_{t})$ 向前滚动，进行纯想象中的规划，这是 Dreamer 高效的根本原因。

PlaNet 论文（Hafner et al., ICML 2019）通过消融实验（ablation study，系统性地去掉模型的某一个组件，观察性能如何变化，从而验证该组件的必要性）明确验证了这一设计：纯随机路径（无确定性 $h_{t}$ ）难以跨多步可靠地记忆信息，训练优化可能找不到"令某些维度方差趋零以储存长期信息"的解；纯确定性路径（无随机 $z_{t}$ ）无法表达环境固有的随机性，想象轨迹与真实轨迹的分布差距更大。两条路径缺一不可。 观测模型也因此同时以 $h_{t}$ 和 $z_{t}$ 为条件： $o_{t} \sim p (o_{t} | h_{t}, z_{t})$ ，确定性记忆和随机感知共同决定重建的图像。

三种动力学模型对比

模型	不确定性建模	记忆机制	主要用途
GRU	无（确定性输出）	固定维度隐状态 $h_{t}$	简单序列预测，快速原型
MDN-RNN	混合高斯（多峰分布）	固定维度隐状态 $h_{t}$	多峰不确定性，Ha & Schmidhuber M 模块
RSSM	先验/后验分离（高斯）	确定性 $h_{t}$ + 随机 $z_{t}$ 双轨	Dreamer 核心，支持纯想象规划

三者是递进关系：GRU 奠定序列建模基础，MDN-RNN 引入不确定性，RSSM 进一步把"记忆"和"感知不确定性"解耦，让模型可以在没有真实观测的情况下向前滚动规划。

Part B：潜在动力学 ​

编码器不够用，我们需要预测未来 ​

最简单的动力学：GRU ​

MDN-RNN：建模不确定性 ​