真实部署评测：超越论文指标

前面五个模型的指标框架都是在受控实验室环境下设计的，你有干净的数据集、可重复的仿真环境、充足的计算资源来反复运行对照实验。但当世界模型进入真实部署时，一切都会变得更加复杂。

为什么论文指标不够

FID（Fréchet Inception Distance，图像特征分布距离，越低越好）、FVD（Fréchet Video Distance，视频序列动态质量，越低越好）、PSNR（Peak Signal-to-Noise Ratio，峰值信噪比，越高越好）告诉你模型"预测准不准"，但它们回答不了以下问题：

Policy 在世界模型里学到的动作，能不能在真实机器人上被硬件执行？
传感器延迟和异步性会不会让世界模型的时序假设失效？
当世界模型在某个状态下不确定时，系统能不能识别出来并安全地请求人工接管？

真实部署里，world model 只是长链条中的一环：

完整控制链依次经过六个环节：传感器输入状态估计，状态估计输入世界模型，世界模型输入规划器/策略，策略输入低层控制器，低层控制器驱动执行器。论文指标只衡量"世界模型"这一个盒子的质量，其他任何环节失效都会导致系统整体失效。

链条中任何一个环节的失效都会导致系统失效，而论文指标只衡量了"world model"这一个盒子的输入输出质量，不衡量整个链条的可靠性。

真实部署应该记录和评估什么

动力学质量

one-step prediction error：短期动力学是否准确
multi-step rollout error：长程是否漂移（5/10/20 步）
contact event accuracy：是否正确预测接触、滑动、掉落、卡住

不确定性与可靠性

uncertainty calibration：高不确定是否真的对应高误差，用 Expected Calibration Error (ECE) 衡量。

📖 校准（calibration）：模型预测"我有 80% 把握"时，真实准确率是否也接近 80%？校准好的模型，置信度 = 实际准确率。ECE = 按置信度分桶后，各桶内置信度与实际准确率差值的加权均值，越低越好。

策略迁移

policy transfer gap：模型里学到的策略迁移到真机后的累计奖励损失（sim-to-real gap）

人机协作

intervention rate：每小时需要多少次人工接管
failure recovery rate：失败中间态能否恢复

系统性能

latency：从观测到动作是否满足控制频率（real-time factor: sim_speed / real_speed ≥ 1）

真实部署评测：超越论文指标 ​

为什么论文指标不够 ​

真实部署应该记录和评估什么 ​

真实部署评测：超越论文指标

为什么论文指标不够

真实部署应该记录和评估什么