Skip to content

争论四:数据从哪里来

争论四:"下载人类"的时代,数据从哪里来?

谢赛宁的判断

谢赛宁有一个对当前 AI 发展阶段的宏观概括:

"以前是下载互联网的时代,现在是下载人类的时代。"

第一阶段的"下载互联网",是指 LLM 的训练数据来源:Common Crawl(持续抓取互联网网页的公开数据集,包含数十亿网页的原始文本,是 GPT 系列和 LLaMA 等大模型的主要训练语料来源)、Wikipedia、GitHub、书籍,人类在数字空间留下的一切文字痕迹。这套数据的规模惊人,但有一个根本局限:只有语言,没有物理。

第二阶段的"下载人类",是指世界模型需要的数据:第一视角的人类操作视频、工业传感器数据、机器人示教数据、医疗操作影像。这些数据记录的是人类如何在物理世界中行动,而不只是人类如何描述行动。

谢赛宁做了一个让人震惊的量级对比:一个 4 岁的小孩,在他 4 年的人生里接收的视觉信息量,按帧数和像素计算,比所有训练 GPT-4 的文字 token 加起来还要大。

IRIS 在 Kung Fu Master 中的多步想象轨迹
Micheli et al. (2022) IRIS 的想象展开示例:从同一初始帧出发,Transformer 世界模型在 Atari Kung Fu Master 中自回归生成多条候选未来轨迹(每行为一条轨迹)。这些轨迹完全在模型内部生成,不与真实游戏环境交互,策略从这些纯想象序列中学习。数据问题的核心在于:生成这样的训练数据需要大量真实交互积累的初始状态,而在物理世界中这些初始状态极难批量获取。

而且关键是:这些数据不会上传到 YouTube。它们在医院手术室,在工厂流水线,在农业操作现场,在家庭厨房,散落在无数的私有空间里,既没有数字化,也没有标注。

AMI Labs 的数据战略

谢赛宁描述了他们团队的应对方案:草根联盟。找到那些拥有真实世界数据的公司,工业制造、医疗、农业,让他们用数据换模型能力,共建世界模型。

他用了一个金融行业的类比:Mastercard 和 Visa 的成功,不是因为他们自己有很多钱,而是因为他们建立了一个让所有银行都愿意接入的网络。世界模型的数据战略,可能也需要类似的网络效应,没有任何一家公司能单独积累足够的物理世界数据,但通过联盟可以。

深层挑战

这个愿景背后有几个严峻的挑战,谢赛宁没有回避。

标注成本极高:一段工业机器人操作的视频,要标注出每个关节的状态、每个物体的属性、每个动作的意图,远比标注一张图片的类别复杂得多。

隐私和所有权:医疗影像有病人隐私,工厂数据有商业机密,家庭视频有个人隐私。数据的流通需要解决复杂的法律和伦理问题。

伦理边界:"下载人类"这个说法本身就有令人不安的地方,人类的行为数据、决策模式、身体动作,都将被用来训练机器。这条边界在哪里?谁来划定?

留给你

如果世界模型最终需要来自每个人日常生活的传感器数据,你戴的 AR 眼镜、你家里的摄像头、你工作时的操作记录,你愿意用这些隐私换取一个更智能的 AI 助手吗?

更深一层:这个选择真的是你能"愿意"或"不愿意"的吗?还是说,这会是一个像智能手机一样、你不参与就被排除在外的基础设施?


延伸阅读

  • Sutton (2019): The Bitter Lesson:搜索与学习胜过人类手工知识的核心论点
  • LeCun, Y. A Path Towards Autonomous Machine Intelligence(见 L01 延伸阅读)
  • Ha & Schmidhuber (2018): World Models(见 L01 延伸阅读)
  • 谢赛宁 (Saining Xie) 访谈《商业访谈录》(张小珺, 2024). YouTube
  • LeCun, Y. (2026 年 5 月). 访谈:LLM 安全性、VLA 与 JEPA. YouTube