L04 · 按模型评估:指标体系与诊断方法
许多教程习惯给出一张万能指标列表:FID、PSNR、奖励曲线……然后对所有模型一视同仁地打分。这种做法看似公平,实则掩盖了各架构的真实失效模式。
核心原则:指标必须与架构的失效模式对齐。
本讲分三个部分:
- 各模型专属指标:Dreamer(FID + 奖励相关性)、MuZero(价值准确度 + 访问熵)、TD-MPC(一致性损失)、STORM(Token 损失 + 长时域 PSNR)、扩散世界模型(物理一致性)
- 通用失效模式:潜在漂移(Horizon Drift)及缓解策略
- 真实部署评测:论文指标的局限,七个常见坑,三种务实落地策略
建议先完成 P03–P05 再读,有了自己跑过的数字,很多诊断规则会瞬间清楚。