.. _tokenizer_techniques: 推荐中的Tokenizer技术 ===================== 在前一节中,我们系统梳理了从LLM到生成式推荐的映射关系,特别指出了\ **物品Token化问题**\ 是连接传统推荐数据和生成式模型的关键桥梁。现在,让我们深入探讨这一核心问题:\ **如何将推荐系统中的物品转化为生成式模型能够理解和生成的Token序列?** Tokenizer范式演进 ----------------- 在深入技术细节之前,我们需要从全局视角理解生成式推荐中物品表示的三种主流范式及其演进逻辑。这不仅是技术选型的问题,更反映了推荐系统建模哲学的深刻转变。 三种范式的技术特征 ~~~~~~~~~~~~~~~~~~ **稀疏ID范式(Sparse ID-Based)** 这是传统推荐系统的标准做法:为每个物品分配唯一的原子ID(如 ``item_10086``\ 、\ ``video_9527``\ )。在判别式模型中,这些ID通过Embedding层映射到连续向量空间,然后利用深度网络学习用户-物品交互模式。 代表性工作包括HSTU :cite:`zhai2024actions` ,它将用户行为序列组织为 ``[item₁, action₁, timestamp₁, ..., itemₙ, actionₙ, timestampₙ]`` 的结构化形式,通过可学习的Embedding矩阵为每个ID赋予语义。GenRec :cite:`cao2024genrec` 则直接在生成式架构中使用稀疏ID,通过特殊的注意力机制捕获ID之间的协同关系。 这种方式的\ **核心优势**\ 在于: - **无碰撞保证**\ :每个物品拥有唯一标识符,不存在歧义 - **特征交互自由**\ :可以灵活地设计各种特征组合网络(如DCN、DIN) - **工程成熟度高**\ :与现有推荐系统基础设施无缝衔接 然而,当我们试图将其迁移到生成式架构时,面临着\ **三大根本性困境**\ : **词表爆炸问题**\ 。回顾LLM的建模原理,生成式模型的核心任务是在词表上进行下一个Token的概率分布预测:\ :math:`p_\theta(i_{1:T} | u, c) = \prod_{t=1}^{T} p_\theta(i_t | i_{