本章总结 ======== 本章围绕推荐模型规模化(Scaling)面临的核心瓶颈,介绍了工业界和学术界的代表性探索,共同回答了一个关键问题:如何让推荐系统也能像大语言模型一样享受“更大模型、更多数据 = 更好性能”的Scaling Law红利? 传统深度学习推荐模型在两个维度遭遇了根本性限制:一是计算成本与候选数量线性绑定,对每个候选独立打分导致推理成本随候选规模线性增长,使得参数扩张难以转化为实际收益;二是碎片化的手工模块导致硬件利用率极低,大量算力耗费在访存密集型操作上,无法充分发挥现代GPU的计算能力。这两个瓶颈共同导致推荐模型的算力增长曲线几乎停滞。 Meta的HSTU首次在推荐领域系统性验证了scaling law,其核心洞察是将item-level建模转变为user-level建模——将同一用户的多个候选组织为一个序列,通过KV caching技术将历史表征的计算成本与候选数量解绑,同时打开了超长序列建模的大门。小红书的GenRank深入分析了user-level建模有效性的来源,揭示自回归机制是其本质所在,并通过action-oriented organization大幅提升计算效率。美团的MTGR在多目标、多场景、冷启动等复杂业务条件下验证了这一范式,提出混合范式在保持效率的同时兼容传统特征工程的经验。阿里的RankMixer从底层将推荐模型重构为统一的Transformer架构,通过将访存密集型操作替换为计算密集型操作大幅提升硬件利用率,使每一个FLOPs都能产生实际价值。字节的OneTrans进一步打破序列特征与非序列特征之间的架构壁垒,将所有输入统一表示为token序列进行深度融合,并无缝引入KV caching等系统优化,实现整体可扩展。 五个工作从不同角度推动推荐模型的规模化,共同表明:推荐系统不再是深度学习scaling的“例外”,只要解决架构层面的根本瓶颈,推荐模型同样可以从计算资源的持续投入中获得可预测的性能提升,真正进入与大语言模型并驾齐驱的大规模参数时代。