七个常见坑、落地策略与课程总结
真实部署最常见的七个坑
动作语义不一致
仿真里一个 action 可能是理想关节目标(直接赋值给关节角度),真机上却要经过 PD 控制器(Proportional-Derivative controller,比例-微分控制器,一种经典闭环控制器:根据当前误差的大小(比例项P)和误差变化速率(微分项D)输出控制信号,使关节角度跟踪目标值;真实机器人几乎都有这一层低层控制,仿真中往往被简化或忽略)、硬件限位、速度约束和电机响应延迟。World model 如果用"理想动作"训练,它学到的动力学模型描述的是一个不存在的"完美机器人",policy 学到的动作序列不一定能被真实硬件执行。
时间延迟和异步传感器
相机(通常 30Hz 或 60Hz)、力传感器(通常 1kHz)、关节状态(250Hz 或更高)、控制命令(可变频率)往往不同步。World model 以为 o_t 和 a_t 是同一时刻采集的,实际可能差了几十甚至上百毫秒。对高速 locomotion 或接触 manipulation,这个时间差足够让预测失效,机器人在预测"腿刚着地"时,腿已经离地了。
接触状态不可见
视觉里看起来接触了,不代表力已经传上去;视觉里看起来没动,不代表物体没有微滑。这是视觉世界模型在操作任务上最大的盲点:抓取、插孔、拧瓶盖、拉抽屉这类任务都高度依赖不可见的接触变量(法向力、切向力、接触面积)。仅靠 RGB 输入的世界模型在这类任务上的预测上限远低于人类期望。
长时序漂移
视频世界模型短 rollout(1-5步)看起来很好,但随着时间延长,物体身份(一个红球变成蓝球)、几何关系(两个物体的相对位置颠倒)、接触状态("物体在手里"变成"物体悬空")都会悄悄变形。表征空间预测(TD-MPC 式)、self-forcing 训练(STORM 式)、3D 显式表示(NeRF,Neural Radiance Field,神经辐射场,用神经网络隐式表示三维场景,可从任意视角渲染图像;3DGS,3D Gaussian Splatting,用大量三维高斯球显式表示场景,渲染速度比 NeRF 快得多;两者都维护明确的三维几何,有助于跨帧保持物体持久性)都在缓解这个问题,但截至目前没有完全解决方案。
Policy 利用模型漏洞(Model Exploitation)
Policy 是一个优化器,它会找到世界模型里高奖励但真实世界不成立的动作。这不是 policy 的错,而是优化的本质。典型案例:在 learned simulator 里,policy 发现了"快速小幅振动关节可以获得高奖励"的技巧,这个动作模式在模型里绕过了所有物理约束,但在真机上只会震坏电机或触发急停。
检测方法:定期把 policy 学到的高奖励动作序列放到真实环境中执行,检查是否存在"模型里有效但真机无效"的动作。如果比例超过 20%,需要引入对抗训练或系统地修补世界模型的漏洞。

不确定性没有进入控制决策
很多世界模型会给出一个看似合理的未来预测,但不告诉下游 policy "这里我其实没见过类似状态"。这种无声的失效比明显的预测错误更危险,policy 以为自己在熟悉地形上行进,实际上已经进入了分布外区域。
真实部署必须让 uncertainty 参与规划:不确定就减慢速度、换一个更保守的动作、或者主动请求人类介入。一个简单的实现:在世界模型的潜在空间里,维护一个训练数据的密度估计器(如 kernel density estimation,核密度估计,一种非参数方法,用训练数据点周围放置的高斯核估计概率密度,密度低说明当前状态远离训练分布;或 normalizing flow,归一化流,一种可逆的神经网络模型,能精确计算任意输入点在已学分布下的概率密度),当新观测的密度低于阈值时触发"高不确定性"标志。
安全不是 reward shaping 能完全解决的
家庭和工厂里的机器人需要硬安全层:关节速度限制、末端执行器力限制、工作空间碰撞检测、紧急急停、人工接管协议。这些不能完全依赖 world model 学到的"安全感知",因为世界模型本身是可能出错的。
World model 可以扮演风险预测的角色("如果执行这个动作,未来 3 步内有 40% 概率发生碰撞"),但最终的硬安全保证必须来自独立的、不依赖学习的控制层。安全约束是软件工程问题,不只是 ML 训练问题。
延伸阅读
- Dreamer 系列论文:见 L01 延伸阅读(Dreamer V1)和 L02 延伸阅读(V2/V3/V4)
- MuZero:见 L03 延伸阅读(Schrittwieser et al., 2020)
- TD-MPC:见 L03 延伸阅读(Hansen et al., 2022)
- STORM:见 L04 STORM 指标页延伸阅读(Zhang et al., 2023)
- Alonso et al. (2024): Diamond:扩散世界模型,NeurIPS 2024
- Heusel et al. (2017): FID:Fréchet Inception Distance 原始论文