本章总结
========

本章围绕推荐模型规模化（Scaling）面临的核心瓶颈，介绍了工业界和学术界的代表性探索，共同回答了一个关键问题：如何让推荐系统也能像大语言模型一样享受“更大模型、更多数据
= 更好性能”的Scaling Law红利？

传统深度学习推荐模型在两个维度遭遇了根本性限制：一是计算成本与候选数量线性绑定，对每个候选独立打分导致推理成本随候选规模线性增长，使得参数扩张难以转化为实际收益；二是碎片化的手工模块导致硬件利用率极低，大量算力耗费在访存密集型操作上，无法充分发挥现代GPU的计算能力。这两个瓶颈共同导致推荐模型的算力增长曲线几乎停滞。

Meta的HSTU首次在推荐领域系统性验证了scaling
law，其核心洞察是将item-level建模转变为user-level建模——将同一用户的多个候选组织为一个序列，通过KV
caching技术将历史表征的计算成本与候选数量解绑，同时打开了超长序列建模的大门。小红书的GenRank深入分析了user-level建模有效性的来源，揭示自回归机制是其本质所在，并通过action-oriented
organization大幅提升计算效率。美团的MTGR在多目标、多场景、冷启动等复杂业务条件下验证了这一范式，提出混合范式在保持效率的同时兼容传统特征工程的经验。阿里的RankMixer从底层将推荐模型重构为统一的Transformer架构，通过将访存密集型操作替换为计算密集型操作大幅提升硬件利用率，使每一个FLOPs都能产生实际价值。字节的OneTrans进一步打破序列特征与非序列特征之间的架构壁垒，将所有输入统一表示为token序列进行深度融合，并无缝引入KV
caching等系统优化，实现整体可扩展。

五个工作从不同角度推动推荐模型的规模化，共同表明：推荐系统不再是深度学习scaling的“例外”，只要解决架构层面的根本瓶颈，推荐模型同样可以从计算资源的持续投入中获得可预测的性能提升，真正进入与大语言模型并驾齐驱的大规模参数时代。