8.3. 自主推理的探索¶

OneRec-Think通过精心设计的三阶段训练框架,成功让推荐模型具备了“先思考再推荐”的能力。然而,细心的读者可能会发现一个问题:OneRec-Think的推理能力在很大程度上依赖于人工设计。无论是推理脚手架阶段预定义的prompt模板(“分析用户兴趣→评估候选物品→生成推荐”),还是物品对齐阶段设计的多任务训练目标,都是研究者基于对推荐场景的理解而精心构造的。这就像给学生提供了详细的解题步骤模板，虽然学生能按照模板解题,但我们很难说他真正“理解”了问题,更难以期待他在遇到全新问题时能自主探索解决方案。

这种对人工设计的依赖带来三个深层次的问题:

推理路径的局限性:预定义的推理模板约束了模型的思考空间。OneRec-Think的“用户画像→候选评估→推荐”三段式推理虽然直观,但在某些复杂场景中可能并非最优策略。例如,当用户的兴趣高度多元且存在明显的时段偏好时(工作日看新闻和教程,周末看娱乐和游戏),更合理的推理路径可能是“先判断当前时间→激活对应情境的兴趣子集→再进行匹配”。但这种情境感知的推理逻辑很难通过预定义模板覆盖。

教师模型的知识瓶颈:OneRec-Think虽然在推理激活阶段没有显式使用教师模型,但其训练数据(用户画像、候选评估的标注)实际上隐含了人类专家对“好的推理”的认知。而人类的认知本身可能存在偏差或不完备。更致命的是,当推荐场景快速演化时(如短视频平台上每天出现新的内容类型、新的用户行为模式),依赖静态知识的方法很难及时适应。

可扩展性的挑战:为每种推荐场景(图书、电影、短视频、音乐等)都设计一套专门的推理模板和训练任务,成本高昂且难以迁移。我们需要一种更通用的范式,能让模型在不同场景中自主学习适合该场景的推理策略。

这些问题的根源在于:OneRec-Think本质上仍是模仿学习(Imitation Learning)的范式，通过学习人类设计的推理示例来获得推理能力。而真正的智能应该具备探索学习(Exploratory Learning)的能力:在明确的目标指引下,通过试错和反馈,自主摸索出有效的策略。这正是强化学习(Reinforcement Learning)的哲学。

RecZero (Kong et al., 2025) 的提出标志着推荐系统推理范式的一次重要转变: 从依赖人工知识的监督式推理,转向基于任务目标的自主式推理。它提出了一个大胆的问题:能否让推荐模型在没有教师指导、没有推理模板的情况下,仅仅通过与推荐环境的交互,自己学会如何思考?

8.3.1. RecZero:纯强化学习的自主推理¶

RecZero的核心理念可以用一句话概括:让模型通过强化学习,在推荐任务的反馈中自主演化出推理能力。这个理念听起来简单,但实现起来充满挑战。传统的基于LLM的推荐系统要么先用监督学习让模型“认识”物品,再用强化学习优化推荐策略(如OneRec-Think);要么先用教师模型生成推理样本,再通过知识蒸馏让学生模型学习(如早期的Rec-SAVER、EXP3RT等方法)。RecZero则完全抛弃这些“拐杖”,直接让模型在空白状态下,通过与环境的交互学习从推理到推荐的完整过程。

这就像让一个从未见过推荐任务的LLM,直接被投放到真实的推荐环境中:系统给它展示用户的历史行为和物品元信息,它需要输出推荐结果。每次推荐后,系统根据推荐质量给予奖励信号(例如,推荐结果与用户真实评分的差距)。模型唯一的学习信号就是这个奖励，它不知道“好的推理”长什么样,也没有示例告诉它应该先分析用户再评估物品。它需要自己摸索:哪种思考方式能带来更高的奖励?

8.3.1.1. Think-before-Recommendation提示构造¶

尽管RecZero采用纯强化学习,但这不意味着完全随机探索。为了给模型提供一个结构化的思考空间,RecZero设计了Think-before-Recommendation提示模板。这个模板不是用来监督模型“应该思考什么”,而是定义了一个通用的推理框架,让模型在这个框架内自由探索。

具体而言,提示由四个部分组成:

(8.3.1)¶\[\text{Prompt} = [\text{Instruction}, \mathcal{H}_u, M_i, \text{ReasoningTemplate}]\]

其中\(\text{Instruction}\)是任务指令(如“根据用户历史预测评分”),\(\mathcal{H}_u\)是用户u的历史交互序列,\(M_i\)是目标物品i的元信息(标题、类别、描述等)。最关键的是\(\text{ReasoningTemplate}\),它定义了四个结构化的推理步骤:

(8.3.2)¶\[\langle\text{analyze user}\rangle \ldots \langle/\text{analyze user}\rangle\]

(8.3.3)¶\[\langle\text{analyze item}\rangle \ldots \langle/\text{analyze item}\rangle\]

(8.3.4)¶\[\langle\text{match}\rangle \ldots \langle/\text{match}\rangle\]

(8.3.5)¶\[\langle\text{rate}\rangle \ldots \langle/\text{rate}\rangle\]

这四个步骤分别对应:从历史交互中提取用户兴趣、总结目标物品的关键特征、基于前两步分析评估用户-物品的匹配度、给出最终的评分预测。注意,模板只定义了步骤的存在和顺序,但没有规定每个步骤内部应该写什么内容、应该关注哪些特征、应该如何权衡不同因素。这些都留给模型在强化学习中自己探索。

举个例子,对于图书推荐场景,模型可能在探索过程中生成这样的推理:

<analyze user>
用户历史主要包含历史传记类图书,如《林肯传》《富兰克林自传》,
显示出对政治人物生平的兴趣。同时也有《人类简史》等宏观历史作品,
表明用户偏好深度历史分析而非简单史料堆砌。
</analyze user>

<analyze item>
《光荣与梦想》是一部美国断代史,涵盖1932-1972年间的重大政治、
社会事件,既有对罗斯福、肯尼迪等政治家的细致刻画,
也有对时代背景的宏观叙述,写作风格兼具学术性与可读性。
</analyze item>

<match>
该书同时满足用户对政治人物和宏观历史的双重兴趣,
且写作深度符合用户偏好,匹配度高。
</match>

<rate>
4.5分
</rate>

在这个推理中,模型自主发现了“用户兴趣的多维性”(政治人物+宏观历史),并学会了将物品特征与这些维度分别匹配。这个策略并非人工设计,而是模型在大量交互中发现“同时考虑多个兴趣维度的推理能获得更高奖励”后逐渐固化的。

也可能在另一个场景中,模型发现完全不同的推理策略。对于电影推荐,它可能学会更关注情感基调:

<analyze user>
用户近期评分较高的电影(《肖申克的救赎》《当幸福来敲门》)
均为励志主题,暗示用户当前情绪可能需要正面激励。
同时用户对节奏缓慢、注重人物内心的剧情片耐受度高。
</analyze user>

<analyze item>
《阿甘正传》以简单善良的主人公视角,展现个人奋斗与时代变迁,
基调温暖励志,节奏舒缓但不拖沓...
</analyze item>

这里模型学会了从历史行为中推断用户的情感需求,而非仅仅匹配内容标签。这种元认知能力，即知道在什么情况下关注什么特征，正是通过强化学习的探索涌现出来的。

Think-before-Recommendation模板的巧妙之处在于:它提供了足够的结构来引导探索方向,但保留了足够的自由度让模型发现场景特定的最优策略。这就像给登山者指定了“先观察地形、再选择路线、然后评估风险、最后决定行动”的通用框架,但具体怎么观察、选择什么路线,完全由登山者根据实际情况决定。

8.3.1.2. 基于规则的奖励建模¶

有了推理框架,下一个问题是:如何设计奖励函数,让模型知道什么样的推理是好的? 这是RecZero面临的最大挑战。在监督学习中,我们可以用人工标注的推理示例来告诉模型“正确答案”;在OneRec-Think的强化学习阶段,奖励函数综合考虑了协同相似度、内容相关性等多个维度。但RecZero的目标是纯粹依靠推荐任务本身的反馈来驱动学习,不引入任何外部知识。

RecZero采用了一个极简但有效的奖励设计:

(8.3.6)¶\[r(s, a) = -|y_{\text{true}} - y_{\text{pred}}|\]

其中\(y_{\text{true}}\)是用户的真实评分,\(y_{\text{pred}}\)是模型在\(\langle\text{rate}\rangle\)步骤中预测的评分,\(s\)是完整的推理路径,\(a\)是最终的评分动作。奖励函数衡量的是预测评分与真实评分的绝对误差:误差越小,奖励越高(因为是负号)。

这个设计看似简单粗暴,但蕴含着深刻的学习机制。关键在于:奖励虽然只评价最终的评分预测,但由于推理路径\(s\)和预测\(a\)是联合生成的,梯度会反向传播到整个推理过程。这意味着:如果某种推理方式系统性地导致更准确的评分预测,模型就会强化这种推理方式。

例如,假设模型在探索初期,对某个用户随机生成了这样的推理:

版本A:
<analyze user> 用户喜欢科幻 </analyze user>
<analyze item> 本书是科幻小说 </analyze item>
<match> 类型匹配 </match>
<rate> 4分 </rate>

而真实评分是2分。模型获得负向奖励\(r = -2\)。

后来模型又尝试了更细致的分析:

版本B:
<analyze user> 用户喜欢科幻,但历史评分显示偏好硬科幻(如《三体》),
对软科幻或科幻romance评分较低 </analyze user>
<analyze item> 本书虽标注为科幻,但主要是爱情故事,科幻元素仅为背景 </analyze item>
<match> 类型表面匹配但核心主题不符 </match>
<rate> 2分 </rate>

这次预测准确,获得高奖励\(r = 0\)。通过多次这样的对比,模型学会了:仅仅匹配粗粒度标签是不够的,需要更深入地分析用户的细分偏好和物品的核心特征。这个元认知完全是通过强化学习的试错涌现的,没有任何人告诉模型“应该区分硬科幻和软科幻”。

RecZero采用Group Relative Policy Optimization(GRPO)来实施强化学习。GRPO是一种无需训练独立价值网络(critic)的策略优化方法,特别适合LLM的微调。其核心思想是:对于同一个输入,采样生成多条推理轨迹,根据它们的相对奖励来更新策略。

具体流程如下:对于给定的推荐场景(用户历史\(\mathcal{H}_u\)和目标物品\(M_i\)),模型采样\(K\)条不同的推理轨迹(通常\(K=4\sim8\)):

(8.3.7)¶\[\{(s_1, a_1), (s_2, a_2), \ldots, (s_K, a_K)\} \sim \pi_\theta(\cdot | \text{Prompt})\]

计算每条轨迹的奖励\(r(s_k, a_k)\),然后计算相对优势:

(8.3.8)¶\[\hat{A}_k = r(s_k, a_k) - \frac{1}{K}\sum_{j=1}^{K}r(s_j, a_j)\]

策略更新的目标是增强相对优势为正的轨迹的生成概率,抑制相对优势为负的轨迹:

(8.3.9)¶\[\mathcal{L}_{\text{GRPO}} = -\frac{1}{K}\sum_{k=1}^{K} \hat{A}_k \cdot \log \pi_\theta(s_k, a_k | \text{Prompt})\]

这个设计的精妙之处在于:模型不需要知道“绝对正确”的推理是什么,只需要在自己的探索中识别出哪些推理相对更好。这对于推荐场景尤为重要,因为很多时候并不存在唯一的“正确推理”，对同一个用户-物品对,可以从内容相似性角度思考,也可以从协同过滤角度思考,两种推理都可能得出合理的预测。GRPO允许模型保留多种有效的推理模式,只要它们的平均表现优于随机探索。

8.3.1.3. 纯强化学习的涌现能力¶

经过大量与推荐环境的交互,RecZero展现出一系列令人惊讶的涌现能力。这些能力并非通过监督学习或模仿学习获得,而是完全由强化学习过程中的试错和奖励驱动涌现出来的:

分层推理的自动形成:虽然推理模板定义了四个步骤,但并没有规定每个步骤应该包含多少信息。在训练初期,模型倾向于生成极简的推理(如“用户喜欢历史→物品是历史书→匹配→4分”)。但随着训练进行,模型发现更细致的分析能带来更准确的预测。于是在\(\langle\text{analyze user}\rangle\)步骤中,推理逐渐从单一标签扩展为多维度画像(主要兴趣、次要兴趣、风格偏好);在\(\langle\text{match}\rangle\)步骤中,从简单的“匹配/不匹配”演化为多因素权衡(“内容匹配但风格不符,因此仅部分推荐”)。这种从粗粒度到细粒度的自动演化完全是奖励信号驱动的。

负面信号的利用:在监督学习中,模型主要学习正样本(用户喜欢什么)。但在强化学习中,模型发现负面信号同样重要。例如,当用户历史中有明确的低分评价时,模型学会了在推理中显式标注:“用户曾对恐怖题材评分很低,因此应避免推荐此类内容”。这种对负面信号的敏感性,源于模型发现“忽略用户明确不喜欢的内容会导致严重的预测偏差,降低奖励”。

上下文敏感的推理调整:更令人惊讶的是,模型学会了根据输入的信息完整性调整推理策略。当用户历史交互很少时(冷启动场景),模型倾向于依赖物品的流行度和通用偏好进行保守预测;当历史丰富时,模型会进行更个性化的深度分析。这种自适应策略完全是模型在探索中发现“对不同场景采用不同推理深度能优化总体奖励”后自然形成的。

跨领域推理模式的迁移:虽然RecZero在每个数据集(图书、电影、音乐等)上独立训练,但研究者发现,在一个领域学到的推理结构可以快速迁移到新领域。例如,在图书推荐中学会的“区分内容主题与写作风格”的推理模式,迁移到电影推荐时自动转化为“区分故事主题与拍摄风格”。这表明强化学习不仅让模型学会了领域特定的知识,更学会了通用的推理元策略。

实验结果验证了这些涌现能力的价值。在Amazon-book、Amazon-music、Yelp等多个数据集上,RecZero相比传统的监督学习方法(如仅做物品对齐训练)和蒸馏方法(如从教师模型学习推理),在评分预测的MAE和RMSE指标上都取得了显著提升。更重要的是,通过分析模型生成的推理路径,研究者发现RecZero的推理展现出更高的多样性和场景适应性，面对不同的推荐难度,模型会自动调整推理的复杂度和关注点,而不是机械地套用固定模板。

然而,纯强化学习也面临挑战:训练初期的低效探索。当模型从随机初始化状态开始,完全依靠试错学习时,需要经历大量的无效探索才能发现有效的推理模式。这在计算资源和数据效率上都是昂贵的。如何在保持自主探索优势的同时,提升训练效率?这引出了RecOne的混合范式。

8.3.2. RecOne:冷启动增强的混合范式¶

RecZero证明了纯强化学习可以让模型自主学会推理,但其“从零开始”的探索过程漫长而低效。想象一下,如果让一个完全不懂推荐的模型在海量可能的推理方式中随机尝试,它需要经历多少次失败才能偶然发现“应该先分析用户兴趣”这个基本策略?这就像让婴儿在没有任何指导的情况下自己摸索如何走路，虽然理论上可行,但效率极低。

RecOne提出了一个务实的折中方案:用少量高质量的推理示例为模型“冷启动”,然后用强化学习让模型在这个基础上自主精进。这种混合范式结合了监督学习的数据效率和强化学习的自主优化能力,可以类比为“先教会基本动作,再让学生自己练习升华”。

8.3.2.1. 冷启动样本的精心构造¶

RecOne的第一阶段是冷启动监督微调(Cold-start SFT),但这里的监督学习与传统方法有本质区别。传统方法通常用大规模教师模型生成海量推理样本,然后让学生模型学习。RecOne则反其道行之:只构造少量但高质量的推理示例,用于初始化模型的推理能力。

这些冷启动样本通过两种策略获得:

对齐样本(Aligned Samples):使用与RecZero相同的推理模板,但输入来自一个预训练的推荐教师模型(如传统的协同过滤模型或小规模的LLM)。教师模型对用户-物品对进行评分预测,如果预测结果恰好与真实评分一致,则保留该样本的完整推理路径。形式化地,定义对齐样本集:

(8.3.10)¶\[\mathcal{D}_{\text{align}} = \{(x, \hat{r} \oplus y) \mid \hat{y} = y\}\]

其中\(x\)是输入(用户历史和物品信息),\(\hat{r}\)是教师模型生成的推理路径,\(y\)是真实评分,\(\hat{y}\)是教师模型从推理中得出的预测评分。符号\(\oplus\)表示拼接。对齐样本的特点是推理过程自然地导向了正确的预测,这为模型提供了“什么是连贯推理”的初步认知。

纠偏样本(Misaligned Samples):更有趣的是,RecOne还保留了一部分教师模型预测错误的样本,但对其进行巧妙的纠偏。当教师模型的推理路径\(\hat{r}\)导向错误预测\(\hat{y} \neq y\)时,RecOne保留推理的前三个步骤(分析用户、分析物品、匹配评估),但将最后的\(\langle\text{rate}\rangle\)步骤替换为正确的评分:

(8.3.11)¶\[\mathcal{D}_{\text{misalign}} = \{(x, \hat{r}_{\text{rat}} \oplus y) \mid \hat{y} \neq y \land \hat{y}_{\text{rat}} = y\}\]

其中\(\hat{r}_{\text{rat}}\)表示“替换评分步骤后的推理”。这个设计包含深刻的教学智慧:让模型看到不完美但仍有价值的推理过程,并学会从中提炼有用信息的同时修正错误。这类似于老师批改作业时,不会因为学生最后算错一步就否定整个解题思路,而是指出“思路正确,但最后一步有误”。

最终的冷启动数据集为两者的并集:

(8.3.12)¶\[\mathcal{D}_{\text{trace}} = \mathcal{D}_{\text{align}} \cup \mathcal{D}_{\text{misalign}}\]

关键的是,这个数据集的规模远小于传统蒸馏方法。RecOne通常只需要数千到数万条高质量样本,而传统方法可能需要数十万甚至百万条。这种小样本高质量的策略避免了模型过度拟合教师的表面推理模式,为后续的强化学习留下了充足的优化空间。

冷启动阶段的训练目标是标准的条件语言建模:

(8.3.13)¶\[\mathcal{L}_{\text{cold-start}} = -\mathbb{E}_{(x, y_{\text{trace}}) \sim \mathcal{D}_{\text{trace}}} \left[ \sum_{t=1}^{|y_{\text{trace}}|} \log P_\theta(y_{\text{trace}}^t | x, y_{\text{trace}}^{<t}) \right]\]

其中\(y_{\text{trace}}\)是完整的推理轨迹(包括推理文本和最终评分),\(\theta\)是模型参数。经过这个阶段的训练,模型获得了基本的推理框架认知:知道应该先分析用户再分析物品,知道匹配评估需要综合前两者信息,知道最终评分应该与推理逻辑一致。但此时模型的推理仍然是模仿性的,局限于教师模型的认知范围。

8.3.2.2. 强化学习的能力跃迁¶

冷启动阶段为模型提供了一个“能跑起来”的初始推理能力,但真正让模型推理能力质变的是第二阶段:基于强化学习的自主优化。这个阶段与RecZero的纯RL完全相同，采用GRPO方法,用评分预测误差作为奖励信号,让模型在与推荐环境的交互中自主探索更优的推理策略。

但由于有了冷启动的加持,RecOne的强化学习过程展现出与RecZero截然不同的动态特性:

探索效率的飞跃:RecZero从随机初始化开始,需要大量无效探索才能发现基本的推理结构。而RecOne从一个已经“会推理”的状态出发,可以将探索重点放在推理的优化和精炼上。实验数据显示,RecOne达到与RecZero相同性能所需的训练步数减少了约60%,这意味着更快的收敛和更低的计算成本。

性能上界的突破:更令人惊讶的是,RecOne的最终性能显著超越了RecZero。在Amazon-book数据集上,RecOne将RMSE降低了6.7%,MAE降低了16.8%;在Amazon-music上,RMSE降低12.2%,MAE降低29.9%。这个现象初看违反直觉：既然RecZero是纯自主学习,理论上应该能探索到全局最优;为什么有监督初始化的RecOne反而更好?

深入分析揭示了原因:强化学习的探索存在局部最优陷阱。当模型从随机状态开始探索时,它可能很早就发现一个“还不错”的推理模式(如简单的内容标签匹配),该模式虽然不是最优,但在当前的探索半径内奖励已经比较高,导致模型过早收敛,不再探索更复杂但最终更优的推理策略。而RecOne通过冷启动,为模型提供了一个更接近全局最优的起点,使得后续的强化学习探索能更有效地找到精细的优化方向。

推理模式的多样化:RecOne展现出比RecZero和纯监督方法都更丰富的推理多样性。分析模型生成的推理路径发现,RecOne会根据不同场景灵活切换推理策略:

对于信息充分的场景(用户历史丰富、物品描述详细),采用细粒度多因素分析:“用户偏好A风格但也接受B风格,物品主要是A风格但包含C元素,综合评估…”
对于冷启动场景,采用基于群体统计的保守推理:“用户历史不足,但该物品在相似群体中评分普遍较高,预计…”
对于存在明确负面信号的场景,采用排除式推理:“虽然内容匹配,但用户明确不喜欢X特征,而该物品包含X,因此…”

这种多样性的根源在于:冷启动提供了推理的结构化基础,而强化学习在此基础上发现了场景特定的优化策略。两者的结合产生了“有根基的灵活性”。

8.3.2.3. 混合范式的本质¶

RecOne的成功揭示了推荐系统推理学习的一个深刻洞察:监督学习和强化学习不是对立的,而是互补的。监督学习提供了“语言”，即推理的基本语法和结构,让模型知道如何组织思考;强化学习提供了“智慧”，即推理的策略和权衡,让模型知道何时用什么方式思考。

这可以类比人类的学习过程。我们在学校里学习解题的基本步骤和公式(监督学习),但真正的解题能力来自大量练习中的试错和总结(强化学习)。一个只会背公式的学生难以应对变化的题型,而一个没有基础知识的学生会在无效探索中浪费大量时间。最高效的学习路径是:先掌握基础框架,再通过实践精进。

从训练成本的角度看,RecOne也展现出工程上的优势。虽然它包含两个训练阶段,但总计算量远低于RecZero(约为RecZero的40-50%),因为:

冷启动阶段的数据集很小,仅需短暂的监督训练
强化学习阶段由于探索效率高,收敛更快
避免了RecZero在训练初期的大量无效采样

这使得RecOne成为工业部署的更优选择，既保留了强化学习的自主优化能力,又规避了其训练成本高的缺点。

8.3.3. 自主推理的未来图景¶

RecZero和RecOne开启了推荐系统推理范式的新篇章:从依赖人工知识到自主学习,从静态模板到动态策略,从单一推理到多样化思考。它们证明了即使在推荐这样一个标签稀疏、目标多元、场景复杂的领域,强化学习仍然能让模型涌现出令人惊讶的推理能力。

然而,这仅仅是开始。当前的自主推理方法仍然局限在单步决策场景(给定用户历史和目标物品,预测评分),而真实的推荐系统是一个序列决策过程，每次推荐都会影响用户后续的行为,需要考虑长期价值而非短期准确性。如何让推理能力扩展到多步规划?如何让模型学会“这次推荐虽然用户可能不太喜欢,但有助于探索用户的潜在兴趣”这种长远思考?

另一个开放问题是推理的可解释性与可控性。虽然RecZero和RecOne生成的推理路径在形式上是可读的自然语言,但这些推理是模型在黑箱优化中自主形成的,我们很难保证它们真实反映了模型的决策依据,而非事后合理化。如何验证推理的忠实性(faithfulness)?如何让人类能介入和引导推理过程(如注入业务规则或价值观约束)?

最后,自主推理能否突破当前的领域界限?RecZero/RecOne在每个推荐场景(图书、电影、音乐)中独立训练,虽然展现出一定的推理模式迁移能力,但距离真正的通用推荐推理智能仍有差距。一个理想的愿景是:训练一个通用的推理引擎,能够快速适应任意新的推荐场景,甚至零样本地处理全新的物品类型和用户行为模式。这需要在更大规模、更多样化的推荐数据上进行元学习(meta-learning)或持续学习(continual learning)。从OneRec-Think的结构化思考框架,到RecZero的纯自主探索,再到RecOne的混合优化,我们见证了推荐模型推理能力的演进历程。这个演进揭示了一个核心真理:真正的智能不是记忆,而是推理;不是模仿,而是理解;不是遵循规则,而是创造策略。当推荐系统具备了自主推理能力,它就不再是一个被动的信息过滤器,而成为一个主动的智能助手，理解用户的深层需求,权衡多维目标,解释决策依据,并持续从反馈中学习和进化。这正是下一代推荐系统应有的样子。