七个常见坑、落地策略与课程总结

真实部署最常见的七个坑

动作语义不一致

仿真里一个 action 可能是理想关节目标（直接赋值给关节角度），真机上却要经过 PD 控制器（Proportional-Derivative controller，比例-微分控制器，一种经典闭环控制器：根据当前误差的大小（比例项P）和误差变化速率（微分项D）输出控制信号，使关节角度跟踪目标值；真实机器人几乎都有这一层低层控制，仿真中往往被简化或忽略）、硬件限位、速度约束和电机响应延迟。World model 如果用"理想动作"训练，它学到的动力学模型描述的是一个不存在的"完美机器人"，policy 学到的动作序列不一定能被真实硬件执行。

时间延迟和异步传感器

相机（通常 30Hz 或 60Hz）、力传感器（通常 1kHz）、关节状态（250Hz 或更高）、控制命令（可变频率）往往不同步。World model 以为 o_t 和 a_t 是同一时刻采集的，实际可能差了几十甚至上百毫秒。对高速 locomotion 或接触 manipulation，这个时间差足够让预测失效，机器人在预测"腿刚着地"时，腿已经离地了。

接触状态不可见

视觉里看起来接触了，不代表力已经传上去；视觉里看起来没动，不代表物体没有微滑。这是视觉世界模型在操作任务上最大的盲点：抓取、插孔、拧瓶盖、拉抽屉这类任务都高度依赖不可见的接触变量（法向力、切向力、接触面积）。仅靠 RGB 输入的世界模型在这类任务上的预测上限远低于人类期望。

长时序漂移

视频世界模型短 rollout（1-5步）看起来很好，但随着时间延长，物体身份（一个红球变成蓝球）、几何关系（两个物体的相对位置颠倒）、接触状态（"物体在手里"变成"物体悬空"）都会悄悄变形。表征空间预测（TD-MPC 式）、self-forcing 训练（STORM 式）、3D 显式表示（NeRF，Neural Radiance Field，神经辐射场，用神经网络隐式表示三维场景，可从任意视角渲染图像；3DGS，3D Gaussian Splatting，用大量三维高斯球显式表示场景，渲染速度比 NeRF 快得多；两者都维护明确的三维几何，有助于跨帧保持物体持久性）都在缓解这个问题，但截至目前没有完全解决方案。

Policy 利用模型漏洞（Model Exploitation）

Policy 是一个优化器，它会找到世界模型里高奖励但真实世界不成立的动作。这不是 policy 的错，而是优化的本质。典型案例：在 learned simulator 里，policy 发现了"快速小幅振动关节可以获得高奖励"的技巧，这个动作模式在模型里绕过了所有物理约束，但在真机上只会震坏电机或触发急停。

检测方法：定期把 policy 学到的高奖励动作序列放到真实环境中执行，检查是否存在"模型里有效但真机无效"的动作。如果比例超过 20%，需要引入对抗训练或系统地修补世界模型的漏洞。

RWM-U 的集成不确定性架构：多个世界模型的集成方差量化认知不确定性 — Li et al. (2026) RWM-U 的整体框架：同时训练 N 个独立初始化的自回归世界模型，用集成方差（各模型预测结果的分歧程度）量化认知不确定性，并在整条展开轨迹上时序一致地传播；Policy 优化时对高不确定性区域施加惩罚，使 policy 保持在模型可靠的状态分布内，直接解决"不确定性没有进入控制决策"这一核心坑。

不确定性没有进入控制决策

很多世界模型会给出一个看似合理的未来预测，但不告诉下游 policy "这里我其实没见过类似状态"。这种无声的失效比明显的预测错误更危险，policy 以为自己在熟悉地形上行进，实际上已经进入了分布外区域。

真实部署必须让 uncertainty 参与规划：不确定就减慢速度、换一个更保守的动作、或者主动请求人类介入。一个简单的实现：在世界模型的潜在空间里，维护一个训练数据的密度估计器（如 kernel density estimation，核密度估计，一种非参数方法，用训练数据点周围放置的高斯核估计概率密度，密度低说明当前状态远离训练分布；或 normalizing flow，归一化流，一种可逆的神经网络模型，能精确计算任意输入点在已学分布下的概率密度），当新观测的密度低于阈值时触发"高不确定性"标志。

安全不是 reward shaping 能完全解决的

家庭和工厂里的机器人需要硬安全层：关节速度限制、末端执行器力限制、工作空间碰撞检测、紧急急停、人工接管协议。这些不能完全依赖 world model 学到的"安全感知"，因为世界模型本身是可能出错的。

World model 可以扮演风险预测的角色（"如果执行这个动作，未来 3 步内有 40% 概率发生碰撞"），但最终的硬安全保证必须来自独立的、不依赖学习的控制层。安全约束是软件工程问题，不只是 ML 训练问题。

七个常见坑、落地策略与课程总结 ​

真实部署最常见的七个坑 ​

动作语义不一致 ​

时间延迟和异步传感器 ​

接触状态不可见 ​

长时序漂移 ​

Policy 利用模型漏洞（Model Exploitation） ​

不确定性没有进入控制决策 ​

安全不是 reward shaping 能完全解决的 ​

延伸阅读 ​