争论四：数据从哪里来

争论四："下载人类"的时代，数据从哪里来？

谢赛宁的判断

谢赛宁有一个对当前 AI 发展阶段的宏观概括：

"以前是下载互联网的时代，现在是下载人类的时代。"

第一阶段的"下载互联网"，是指 LLM 的训练数据来源：Common Crawl（持续抓取互联网网页的公开数据集，包含数十亿网页的原始文本，是 GPT 系列和 LLaMA 等大模型的主要训练语料来源）、Wikipedia、GitHub、书籍，人类在数字空间留下的一切文字痕迹。这套数据的规模惊人，但有一个根本局限：只有语言，没有物理。

第二阶段的"下载人类"，是指世界模型需要的数据：第一视角的人类操作视频、工业传感器数据、机器人示教数据、医疗操作影像。这些数据记录的是人类如何在物理世界中行动，而不只是人类如何描述行动。

谢赛宁做了一个让人震惊的量级对比：一个 4 岁的小孩，在他 4 年的人生里接收的视觉信息量，按帧数和像素计算，比所有训练 GPT-4 的文字 token 加起来还要大。

IRIS 在 Kung Fu Master 中的多步想象轨迹 — Micheli et al. (2022) IRIS 的想象展开示例：从同一初始帧出发，Transformer 世界模型在 Atari Kung Fu Master 中自回归生成多条候选未来轨迹（每行为一条轨迹）。这些轨迹完全在模型内部生成，不与真实游戏环境交互，策略从这些纯想象序列中学习。数据问题的核心在于：生成这样的训练数据需要大量真实交互积累的初始状态，而在物理世界中这些初始状态极难批量获取。

而且关键是：这些数据不会上传到 YouTube。它们在医院手术室，在工厂流水线，在农业操作现场，在家庭厨房，散落在无数的私有空间里，既没有数字化，也没有标注。

AMI Labs 的数据战略

谢赛宁描述了他们团队的应对方案：草根联盟。找到那些拥有真实世界数据的公司，工业制造、医疗、农业，让他们用数据换模型能力，共建世界模型。

他用了一个金融行业的类比：Mastercard 和 Visa 的成功，不是因为他们自己有很多钱，而是因为他们建立了一个让所有银行都愿意接入的网络。世界模型的数据战略，可能也需要类似的网络效应，没有任何一家公司能单独积累足够的物理世界数据，但通过联盟可以。

深层挑战

这个愿景背后有几个严峻的挑战，谢赛宁没有回避。

标注成本极高：一段工业机器人操作的视频，要标注出每个关节的状态、每个物体的属性、每个动作的意图，远比标注一张图片的类别复杂得多。

隐私和所有权：医疗影像有病人隐私，工厂数据有商业机密，家庭视频有个人隐私。数据的流通需要解决复杂的法律和伦理问题。

伦理边界："下载人类"这个说法本身就有令人不安的地方，人类的行为数据、决策模式、身体动作，都将被用来训练机器。这条边界在哪里？谁来划定？

留给你

如果世界模型最终需要来自每个人日常生活的传感器数据，你戴的 AR 眼镜、你家里的摄像头、你工作时的操作记录，你愿意用这些隐私换取一个更智能的 AI 助手吗？

更深一层：这个选择真的是你能"愿意"或"不愿意"的吗？还是说，这会是一个像智能手机一样、你不参与就被排除在外的基础设施？

争论四：数据从哪里来 ​

争论四："下载人类"的时代，数据从哪里来？ ​

谢赛宁的判断 ​

AMI Labs 的数据战略 ​

深层挑战 ​

留给你 ​

延伸阅读 ​

争论四：数据从哪里来

争论四："下载人类"的时代，数据从哪里来？

谢赛宁的判断

AMI Labs 的数据战略

深层挑战

留给你

延伸阅读