Skip to content

四个时代的故事

时代一:理论奠基(1950s–2017)

循环神经网络(RNN)、卡尔曼滤波器、隐马尔可夫模型……这七十年里,研究者们各自在不同的领域里构建"预测未来状态"的工具,但这些工作分散在控制论、语音识别、机器人学的不同角落,从未被统一冠以"世界模型"的名字。

时代二:Ha & Schmidhuber 的"梦中学习"(2018)

2018 年,David Ha 与 Jürgen Schmidhuber 发表了那篇如今被广泛引用的论文《World Models》。

他们用一个优雅的三模块框架统一了这些散落的思想:

  • V(视觉模块):一个 CNN 编码器,把每帧游戏画面压缩成一个低维向量 z
  • M(记忆模块):一个 MDN-RNN,接收 z 和上一步动作,预测下一个 z;它是整个系统的"世界模型",负责对未来建模
  • C(控制器,Controller):一个极其简单的线性层,输入当前 z 和 M 的隐状态,输出动作;它是策略网络,负责决策

三个模块依次分工:V(视觉编码器)将每帧画面压缩为低维向量,M(记忆模块/MDN-RNN)以历史向量和动作为输入维护对世界的预测模型,C(控制器)直接以当前向量和 M 的隐状态输出动作。

他们实验的核心设计是:把控制器 C 放进记忆模块 M 幻想出的虚拟环境里训练,然后把策略迁移到真实游戏。在赛车任务(Car Racing,OpenAI Gym 的二维赛车环境,摄像头俯视视角,任务是跑完随机生成的赛道)上,纯梦境训练的策略能直接在真实环境中取得不错的成绩。VizDoom(基于第一人称射击游戏《毁灭战士》的 RL 研究环境,画面为第一人称 3D 视角,任务复杂度显著高于赛车)任务则遇到了一个更本质的问题:控制器学会了利用世界模型的错误制造虚假高分(policy exploitation),在梦境里"作弊"而非学到真实技能,最终他们需要引入温度参数来增加梦境多样性,才使迁移勉强成立。这个"作弊"问题后来成为整个世界模型领域的核心挑战之一。

Ha & Schmidhuber 的框架(完全在幻想出的环境里训练,再迁移到真实环境)让世界模型的思路第一次进入主流视野。

Ha & Schmidhuber (2018) World Models 实验结果:Car Racing 与 VizDoom 并排展示
Ha & Schmidhuber (2018) 实验结果总览。左侧:智能体在 M 模块的梦境中训练后,成功驾驶 Car Racing 赛道,说明纯粹在想象中训练的策略可以迁移到真实环境。右侧:VizDoom 任务,控制器学会利用世界模型的错误制造虚假高分(model exploitation),最终需要引入温度参数增加梦境多样性,才使策略迁移勉强成立。

时代三:Dreamer 与潜在空间(2019)

2019 年,Danijar Hafner 等人发布了 Dreamer V1,引入了 RSSM(Recurrent State Space Model,循环状态空间模型)。完整机制见 L02;核心思路是将状态拆成"确定性历史记忆"和"随机不确定性"两条并行路径。

📖 潜在空间(latent space):编码器将高维原始数据(如图像的数万个像素)压缩成一个低维向量后,这个向量所在的空间就叫潜在空间。"潜在"的意思是:这个表示不直接对应原始像素,而是捕捉了数据的语义结构。在潜在空间里操作比在像素空间里操作高效得多,因为维度更低,且无关信息已被过滤。

与 Ha & Schmidhuber 的方法不同,Dreamer 不再需要在像素空间重建图像,它直接在潜在空间里做一切:预测、规划、学习奖励。

Dreamer 在 Atari 游戏和连续控制任务上大幅超越了以往的无模型方法,证明潜在空间学习是可行的高效路径。

时代四:视频即世界(2023+)

2023 年前后,两条平行的路线汇聚在同一个问题上:能不能用视频本身来学习世界的物理规律?

  • JEPA(Joint Embedding Predictive Architecture,LeCun 团队,2022):抛弃像素重建,只在语义嵌入空间里做预测。"我不需要画出你的脸,我只需要知道你是谁。"

四个时代的演化逻辑清晰:从"如何在序列中预测状态"(时代一),到"如何在梦境中训练策略"(时代二),到"如何在潜在空间里压缩感知"(时代三),再到"如何只保留语义、丢掉噪声"(时代四)。每一步都是对上一步瓶颈的直接回应。

下一页讨论这场演化在 2024 年前后为什么突然加速。