真实部署评测:超越论文指标
前面五个模型的指标框架都是在受控实验室环境下设计的,你有干净的数据集、可重复的仿真环境、充足的计算资源来反复运行对照实验。但当世界模型进入真实部署时,一切都会变得更加复杂。
为什么论文指标不够
FID(Fréchet Inception Distance,图像特征分布距离,越低越好)、FVD(Fréchet Video Distance,视频序列动态质量,越低越好)、PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,越高越好)告诉你模型"预测准不准",但它们回答不了以下问题:
- Policy 在世界模型里学到的动作,能不能在真实机器人上被硬件执行?
- 传感器延迟和异步性会不会让世界模型的时序假设失效?
- 当世界模型在某个状态下不确定时,系统能不能识别出来并安全地请求人工接管?
真实部署里,world model 只是长链条中的一环:
完整控制链依次经过六个环节:传感器输入状态估计,状态估计输入世界模型,世界模型输入规划器/策略,策略输入低层控制器,低层控制器驱动执行器。论文指标只衡量"世界模型"这一个盒子的质量,其他任何环节失效都会导致系统整体失效。
链条中任何一个环节的失效都会导致系统失效,而论文指标只衡量了"world model"这一个盒子的输入输出质量,不衡量整个链条的可靠性。
真实部署应该记录和评估什么
动力学质量
- one-step prediction error:短期动力学是否准确
- multi-step rollout error:长程是否漂移(5/10/20 步)
- contact event accuracy:是否正确预测接触、滑动、掉落、卡住
不确定性与可靠性
- uncertainty calibration:高不确定是否真的对应高误差,用 Expected Calibration Error (ECE) 衡量。
📖 校准(calibration):模型预测"我有 80% 把握"时,真实准确率是否也接近 80%?校准好的模型,置信度 = 实际准确率。ECE = 按置信度分桶后,各桶内置信度与实际准确率差值的加权均值,越低越好。
策略迁移
- policy transfer gap:模型里学到的策略迁移到真机后的累计奖励损失(sim-to-real gap)
人机协作
- intervention rate:每小时需要多少次人工接管
- failure recovery rate:失败中间态能否恢复
系统性能
- latency:从观测到动作是否满足控制频率(real-time factor: sim_speed / real_speed ≥ 1)