Skip to content

L04 · 按模型评估:指标体系与诊断方法

许多教程习惯给出一张万能指标列表:FID、PSNR、奖励曲线……然后对所有模型一视同仁地打分。这种做法看似公平,实则掩盖了各架构的真实失效模式。

核心原则指标必须与架构的失效模式对齐。

本讲分三个部分:

  • 各模型专属指标:Dreamer(FID + 奖励相关性)、MuZero(价值准确度 + 访问熵)、TD-MPC(一致性损失)、STORM(Token 损失 + 长时域 PSNR)、扩散世界模型(物理一致性)
  • 通用失效模式:潜在漂移(Horizon Drift)及缓解策略
  • 真实部署评测:论文指标的局限,七个常见坑,三种务实落地策略

建议先完成 P03–P05 再读,有了自己跑过的数字,很多诊断规则会瞬间清楚。