Skip to content

真实部署评测:超越论文指标

前面五个模型的指标框架都是在受控实验室环境下设计的,你有干净的数据集、可重复的仿真环境、充足的计算资源来反复运行对照实验。但当世界模型进入真实部署时,一切都会变得更加复杂。

为什么论文指标不够

FID(Fréchet Inception Distance,图像特征分布距离,越低越好)、FVD(Fréchet Video Distance,视频序列动态质量,越低越好)、PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,越高越好)告诉你模型"预测准不准",但它们回答不了以下问题:

  • Policy 在世界模型里学到的动作,能不能在真实机器人上被硬件执行?
  • 传感器延迟和异步性会不会让世界模型的时序假设失效?
  • 当世界模型在某个状态下不确定时,系统能不能识别出来并安全地请求人工接管?

真实部署里,world model 只是长链条中的一环:

完整控制链依次经过六个环节:传感器输入状态估计,状态估计输入世界模型,世界模型输入规划器/策略,策略输入低层控制器,低层控制器驱动执行器。论文指标只衡量"世界模型"这一个盒子的质量,其他任何环节失效都会导致系统整体失效。

链条中任何一个环节的失效都会导致系统失效,而论文指标只衡量了"world model"这一个盒子的输入输出质量,不衡量整个链条的可靠性。

真实部署应该记录和评估什么

动力学质量

  • one-step prediction error:短期动力学是否准确
  • multi-step rollout error:长程是否漂移(5/10/20 步)
  • contact event accuracy:是否正确预测接触、滑动、掉落、卡住

不确定性与可靠性

  • uncertainty calibration:高不确定是否真的对应高误差,用 Expected Calibration Error (ECE) 衡量。

📖 校准(calibration):模型预测"我有 80% 把握"时,真实准确率是否也接近 80%?校准好的模型,置信度 = 实际准确率。ECE = 按置信度分桶后,各桶内置信度与实际准确率差值的加权均值,越低越好。

策略迁移

  • policy transfer gap:模型里学到的策略迁移到真机后的累计奖励损失(sim-to-real gap)

人机协作

  • intervention rate:每小时需要多少次人工接管
  • failure recovery rate:失败中间态能否恢复

系统性能

  • latency:从观测到动作是否满足控制频率(real-time factor: sim_speed / real_speed ≥ 1)