争论四:数据从哪里来
争论四:"下载人类"的时代,数据从哪里来?
谢赛宁的判断
谢赛宁有一个对当前 AI 发展阶段的宏观概括:
"以前是下载互联网的时代,现在是下载人类的时代。"
第一阶段的"下载互联网",是指 LLM 的训练数据来源:Common Crawl(持续抓取互联网网页的公开数据集,包含数十亿网页的原始文本,是 GPT 系列和 LLaMA 等大模型的主要训练语料来源)、Wikipedia、GitHub、书籍,人类在数字空间留下的一切文字痕迹。这套数据的规模惊人,但有一个根本局限:只有语言,没有物理。
第二阶段的"下载人类",是指世界模型需要的数据:第一视角的人类操作视频、工业传感器数据、机器人示教数据、医疗操作影像。这些数据记录的是人类如何在物理世界中行动,而不只是人类如何描述行动。
谢赛宁做了一个让人震惊的量级对比:一个 4 岁的小孩,在他 4 年的人生里接收的视觉信息量,按帧数和像素计算,比所有训练 GPT-4 的文字 token 加起来还要大。

而且关键是:这些数据不会上传到 YouTube。它们在医院手术室,在工厂流水线,在农业操作现场,在家庭厨房,散落在无数的私有空间里,既没有数字化,也没有标注。
AMI Labs 的数据战略
谢赛宁描述了他们团队的应对方案:草根联盟。找到那些拥有真实世界数据的公司,工业制造、医疗、农业,让他们用数据换模型能力,共建世界模型。
他用了一个金融行业的类比:Mastercard 和 Visa 的成功,不是因为他们自己有很多钱,而是因为他们建立了一个让所有银行都愿意接入的网络。世界模型的数据战略,可能也需要类似的网络效应,没有任何一家公司能单独积累足够的物理世界数据,但通过联盟可以。
深层挑战
这个愿景背后有几个严峻的挑战,谢赛宁没有回避。
标注成本极高:一段工业机器人操作的视频,要标注出每个关节的状态、每个物体的属性、每个动作的意图,远比标注一张图片的类别复杂得多。
隐私和所有权:医疗影像有病人隐私,工厂数据有商业机密,家庭视频有个人隐私。数据的流通需要解决复杂的法律和伦理问题。
伦理边界:"下载人类"这个说法本身就有令人不安的地方,人类的行为数据、决策模式、身体动作,都将被用来训练机器。这条边界在哪里?谁来划定?
留给你
如果世界模型最终需要来自每个人日常生活的传感器数据,你戴的 AR 眼镜、你家里的摄像头、你工作时的操作记录,你愿意用这些隐私换取一个更智能的 AI 助手吗?
更深一层:这个选择真的是你能"愿意"或"不愿意"的吗?还是说,这会是一个像智能手机一样、你不参与就被排除在外的基础设施?
延伸阅读
- Sutton (2019): The Bitter Lesson:搜索与学习胜过人类手工知识的核心论点
- LeCun, Y. A Path Towards Autonomous Machine Intelligence(见 L01 延伸阅读)
- Ha & Schmidhuber (2018): World Models(见 L01 延伸阅读)
- 谢赛宁 (Saining Xie) 访谈《商业访谈录》(张小珺, 2024). YouTube
- LeCun, Y. (2026 年 5 月). 访谈:LLM 安全性、VLA 与 JEPA. YouTube