争论三：世界模型和 LLM 是竞争关系还是互补？

谢赛宁的分工逻辑

在这一点上，谢赛宁出人意料地温和。他没有说"LLM 是死路"，而是说：

"没有 LLM，Vision 也没办法拓展到现在这种真正的多模态智能的大的范畴。"

他的 AMI Labs 不排斥 LLM，甚至明确感谢 LLM 带来的进步。LLM 解决了语言理解和指令跟随这两个关键问题，让视觉系统有了"语言接口"，世界模型才能接受自然语言指令。

他的判断是：两者处理的是不同维度的信息，各有主场。

范式	主场
LLM	数字空间的推理、代码、文本生成、知识检索
世界模型	物理世界的预测、机器人控制、工业感知、具身智能
WAM	两者的统一：video + action 联合建模，理解物理并接受语言指令

Dreamer V3 处于世界模型这一行：吃动作，预测潜在状态，已在 7 个领域用同一套超参数跑通。

Dreamer V3 的世界模型组件：RSSM 动力学 + symlog 归一化 — Hafner et al. (2023) Dreamer V3 的世界模型结构：RSSM 分离确定性路径（GRU）和随机路径（离散潜变量），配合 symlog 奖励变换和百分位归一化，使同一套超参数可以跨 7 个完全不同的领域直接运行，无需任何任务专属调整。这代表了世界模型派"统一物理表征"目标的一个具体实现。

WAM：联合建模的思路

这个"WAM"（World Action Model，世界动作模型）的概念值得单独说明。

📖 WAM（World Action Model）：一类将视频预测和动作预测联合建模的架构。它的核心思路是：不只是"看懂世界"，而是"看懂世界并知道怎么在里面行动"。视频帧提供物理约束，动作信号提供因果标注，两者联合训练出来的模型，比分开训练的组合更能理解行动的后果。

传统的世界模型和策略是两个分离的模块，先建模世界状态，再在世界模型里做规划。WAM 的思路是打破这个分工：视频本身就是动作学习的监督信号，不需要显式的奖励函数或人工标注。

如果用一个矩阵来理解现有的世界模型，横轴是"吃不吃动作信号"，纵轴是"预测什么"：

Dreamer（RSSM + 潜在 Actor-Critic，详见 L02–L03）：吃动作，预测潜在状态，狭义世界模型，主动决策者
STORM（Stochastic Transformer-based wORld Models，分类 VAE + Transformer 动力学，详见 L03）：吃动作（动作作为 token 拼入序列），预测下一帧 latent token，交互型
WAM：吃动作，同时理解语义，两者的统一

这三种范式在 L03 已经从工程角度比较过。这里的问题不同：WAM 押注的是什么假设？世界模型和策略不应该是两个分离的模块，视频本身就是动作学习的监督信号。 如果这个假设成立，联合训练会打破模型基础和策略学习之间的分工，产生新的涌现能力。

JEPA 的另一条路

LeCun 提出的 JEPA（Joint Embedding Predictive Architecture，LeCun 2022）走了一条不同的方向。

📖 JEPA（Joint Embedding Predictive Architecture）：LeCun 2022 年提出的架构原则。核心想法是：预测应该发生在抽象表示层，而不是像素层。与其让模型预测未来的每一个像素（极其困难，且充满无关的噪声），不如让模型预测未来的语义表征。V-JEPA 2 就是这个思路的视频版本。

JEPA 不生成像素，只预测语义表征。这个选择背后有一个明确的立场：像素是噪声，语义才是信号。 一个不生成任何画面的模型，反而可能比扩散式世界模型更快获得对物理世界的结构性理解。

LeCun 在 2026 年 5 月的一次访谈里，给这个赌注设了一个具体的时间节点：2027 年初，整个行业都会意识到必须换范式；五年之内，JEPA 类架构会像 Linux 成为操作系统底层标准一样，成为 AI 的基础标准。这不是随口的预言，他说这是用自己的职业生涯在押注。

他对这场范式之争的最尖锐表达，来自对两种学习者的比较。VLA（Vision-Language-Action）模型接收视觉输入加语言指令，直接输出动作，是目前大多数端到端机器人和自动驾驶系统的主流路线。特斯拉 Autopilot 就是这个思路：用数百万小时的驾驶数据训练，把感知映射到方向盘。但 LeCun 的批评是：VLA 走的是错误方向。它记住了海量的情境，但内部没有对"后果"的建模。遇到真正没见过的场景，它没有任何推理后果的能力，只能蒙。

一个 17 岁的孩子用 20 小时学会开车，靠的不是背熟所有路况，而是建立起一套对车辆、物理规律、其他驾驶者行为的内部模型，用这个模型去预判和规划。这正是 JEPA 要发展的能力：不是逐 token 蹦词，而是在表征空间里结构性地预测未来，从而支撑有目的的规划。

JEPA 和 WAM 代表了世界模型内部的另一场争论：在哪个空间里做预测？像素空间的预测可解释，但计算昂贵，且容易被无关细节分散注意力。表征空间的预测高效，但表征的质量决定了一切。

关键张力：最终会收敛吗？

这里有一个让双方都不舒服的问题：如果世界模型最终都要接语言（接受自然语言指令），LLM 最终都要接视觉（处理图像和视频），两者会不会最终收敛成同一个东西？

GPT-4o（OpenAI 2024 年发布的多模态大语言模型，能同时处理文本、图像、音频输入并生成对应输出，"o"代表"omni"即全模态）能看图、能听声音、能生成图像。V-JEPA 2 不生成像素，只预测语义表征，但也需要语言来描述任务。两条路正在从两个方向接近同一个点。

也许"LLM vs 世界模型"的争论，本质上是关于核心设计哲学的争论，而不是关于最终产品形态的争论：你是从语言出发，往物理理解扩展？还是从物理感知出发，往语言接口扩展？

出发点不同，可能导致系统架构、训练数据、评估指标上的根本差异，即使最终功能看起来相似。

谢赛宁对这个问题的回答，体现在 AMI Labs 的技术选择里：从物理感知出发，用语言作为接口，而不是用语言作为基底。这个选择的代价是：你需要一套完全不同的数据，不是 Common Crawl，而是物理世界里的传感器记录。

留给你

V-JEPA 2 不生成像素，只预测语义表征。GPT-4o 能看图、能生成图。你觉得五年后这两条路还是分开的吗？

如果它们收敛了，是谁"赢"了，语言派还是世界模型派？还是说，这个问题本身就问错了？

争论三：世界模型和 LLM 是竞争关系还是互补？ ​

谢赛宁的分工逻辑 ​

WAM：联合建模的思路 ​

JEPA 的另一条路 ​

关键张力：最终会收敛吗？ ​

留给你 ​

争论三：世界模型和 LLM 是竞争关系还是互补？

谢赛宁的分工逻辑

WAM：联合建模的思路

JEPA 的另一条路

关键张力：最终会收敛吗？

留给你