Scaling Law架构探索
===================

自Kaplan等人 :cite:`vaswani2017attention`
在2020年提出神经语言模型的scaling law以来，“更大的模型、更多的数据 =
更好的性能”这一范式已在自然语言处理和计算机视觉领域得到充分验证。推荐系统是否也应遵循这一范式？从数据规模来看，答案是肯定的——大型互联网平台每天产生的用户行为数据量远超语言模型的训练语料。

然而，传统的深度学习推荐模型（DLRM）在规模化时遭遇了两大关键瓶颈：

**第一，计算成本与候选数量线性增长。**
传统DLRM对每个候选项独立打分，导致推理成本随候选数量线性增长。当候选集规模达到数百万甚至数十亿的工业级水平时，计算开销难以承受。

**第二，长序列用户行为建模能力不足。**
用户的历史行为序列往往包含数千甚至数万次交互，但传统DLRM受限于注意力机制的平方复杂度，通常只能处理较短的序列，对超长序列要么截断损失信息，要么计算开销不可承受。

这两大瓶颈导致传统DLRM难以通过增加模型规模来提升性能，工业界的推荐模型计算量增长曲线几乎陷入停滞。本章围绕这一困境，介绍工业界和学术界的代表性探索：Meta的HSTU
:cite:`zhai2024actions` 首次系统性验证了推荐模型的scaling
law；小红书的GenRank :cite:`huang2025towards`
深入分析了其中的有效性来源；美团的MTGR :cite:`han2025mtgr`
展示了在复杂业务场景下的落地实践；阿里的RankMixer
:cite:`zhu2025rankmixer`
将推荐模型重构为统一的硬件友好架构；字节的OneTrans
:cite:`zhang2025onetrans`
进一步将序列特征与非序列特征统一建模，打破架构碎片化壁垒。

.. toctree::
   :maxdepth: 1

   1.hstu.md
   2.gen_rank.md
   3.mtgr.md
   4.rankmixer.md
   5.one_trans.md
   6.summary.md