什么是LLM推理？

当我们在日常使用大语言模型（LLM）时，无论是进行简单的聊天，还是让其协助解决问题，模型通常都会给出一个看起来较为完整且逻辑清晰的回答过程。然而，这也让不少小伙伴产生一个疑问：当我们提出一个复杂问题时，模型经过一定“思考”后给出较为严谨的推理过程是可以理解的；但在面对一些人类几乎可以一眼得到答案的简单问题时，模型有时依然会花费较长的“思考时间”。

最近几天引发大家广泛关注的几个典型例子有：

Anthropic的Claude独立使用仅31步骤攻克了算法祖师爷Donald Knuth花了数周时间研究的未解的图论猜想问题；
与此同时，Google Research团队在今年3月6日发布了一篇论文，利用Gemini Deep Think结合树搜索框架解决了理论物理中的一个开放难题。

由此也让我联想到，在今年2月，Google DeepMind推出的AI数学家Aletheia已经能够自主独立解决研究级别的数学问题。可以说，在今年开年以来，LLM在数学与物理领域可谓是“双开花”。

与这些令人惊叹的复杂问题求解能力形成对比的是：当我们向LLM提出一些非常简单的问题，比如基础的数值比较或直观判断时，模型却往往仍然会展开一段较为复杂的推理过程。

图1 调用大模型的API实现

问题是比较9.169和9.6哪个数字更大？

那么，这种现象背后的原因究竟是什么呢，这到底意味着LLM已经真正涌现出了智能推理能力，还是仅仅是在进行更复杂的“模式匹配”？为了理解这个问题，我们可以从以下五个方面进行分析：

预训练阶段得到的LLM本身具备怎样的问题处理能力，以及其在解决问题能力来源会是什么？
CoT（Chain of Thought）对LLM推理能力的影响如何？
Prompt模板设计是否能够有效引导模型进行更具逻辑性和结构化的推理？
SFT、RLHF、RLVR等后训练对模型推理能力的影响如何，这些对齐与强化技术如何改变模型在复杂问题上的表现？
大模型与搜索或外部工具结合后的能力提升，其解决复杂问题的能力会怎么变化？

通过这五个角度的分析，我们可以从不同角度理解LLM“思考”能力的来源与本质。

预训练

我们或许会对预训练完成的LLM普遍持有这样一种看法：如果不经过进一步的提示工程或微调，模型在回答问题时往往直接给出最终答案而不展示中间推理过程，由此认为其不具备推理能力。

图2 无推理与推理的对比

然而，Denny Zhou提出了一个不同的观点：预训练大模型实际上已经具备推理能力了，只是在默认的贪婪解码（greedy decoding）方式下能力未被充分展现。换言之，问题不在于模型缺乏推理能力，而在于我们需要通过合适的解码策略，将模型内在的推理过程显式地引导出来，并且不依赖于提示工程或额外微调，而是对解码层方法的改变。

1 解码策略影响会推理能力的展现

在大语言模型推理能力的研究中，Denny Zhou等人在2024年研究中指出，解码策略会显著影响模型推理能力的表现形式，当采用贪婪解码时容易导致最终答案错误。

图3 预训练模型的CoT解码示意图。预训练大语言模型无需提示即可进行内在推理，其方式是考虑备选的前k个解码路径，而非仅依赖前1个贪心解码路径

其中图3的答案颜色越深表示该模型对解码的最终答案置信度越高。

当通过采样生成 $k$ 条候选推理路径时，可以观察到模型在不同生成轨迹中探索到不同的中间推理过程，其中往往包含能够得到正确答案的推理路径。这表明即使是仅经过预训练的LLM，其参数空间中也可能已经隐含了解决问题所需的推理能力，只是在单一路径解码时未被成功展示。意味着，改变模型推理的解码方式也可以从预训练模型中提取出思维链推导。

贪心解码策略

在大语言模型的自回归生成token过程中，贪心解码策略会在每一步都选择当前条件概率最大的词（token）。这种策略本质上是局部最优搜索，也就是每一步都是选择最大化概率：

\arg max P (x_{t} | x_{i < t})

但是其无法预见后续路径的概率分布，容易错过全局联合概率最大的序列。

比如，采用贪婪解码的LLM进行两步推理生成，词汇表中有A、B、C、D四个候选token，目标是到C或D：

条件概率分布为：

第1步（起点）：

候选token	概率 $P (x_{1})$
A	0.6
B	0.4

起点有两个主要选择，我们观察从A或B出发后，第2步的概率分布：

① 若已选A（从A出发）：

候选token	概率 $P (x_{2} ∣ A)$
C	0.6
D	0.4

② 若已选B（从B出发）：

候选token	概率 $P (x_{2} ∣ B)$
C	0.05
D	0.95

贪心解码过程（局部最优策略）：

Step 1：在A和B中选概率最大的 $\to$ A（0.6） （因为 0.6 > 0.4）
Step 2：从A出发，在C和D中选概率最大的 $\to$ C（0.6） （因为 0.6 > 0.4）

贪心路径的联合概率：

P (A \to C) = 0.6 \times 0.6 = 0.360

对比全局所有等长路径：

生成路径	联合概率计算	结果
A → C (贪心路径)	$0.6 \times 0.6$	$0.360$
A → D	$0.6 \times 0.4$	$0.240$
B → C	$0.4 \times 0.05$	$0.020$
B → D (全局最优)	$0.4 \times 0.95$	$0.380$

结论：B → D（0.380） > A → C（0.360）
贪心解码失败的原因暴露无遗：第一步的局部最优（选了概率为0.6的A）直接锁死了后续路径，导致它永远无法触及第二步中隐藏的极高概率节点（条件概率高达0.95的D），最终给出的生成序列并非全局最优。这就是束搜索（Beam Search）等全局优化算法需要被引入的原因。

LLM推理中，贪心解码虽然因为其低延迟特性被广泛应用，但极易陷入局部最优的陷阱。Denny等人的研究表明，正确的推理路径往往潜藏在解码每一步的 $T o p - k$ 候选空间内，而非必然由每一步的局部最高概率标记（Token）所构成。为此，他们提出多路径CoT解码（可理解为多路径思维链解码），旨在弥补单一贪心路径在处理复杂逻辑任务时的稳定性缺失。

多路径的CoT解码

图4 预训练PaLM-2 Large模型上的第一个解码步骤示例，模型对答案（加粗显示）的置信度以蓝色突出显示

其中k表示在第一个解码步骤中第k个标记的选择

在图4中，LLM第一个解码步骤中的 $T o p - k$ 标记解码还是首选的标记选择是使用贪心解码（ $k = 0$ ）。在每一步的 $T o p ‑ k$ 候选标记（tokens）中，隐藏着更丰富的推理链条，其中一些路径包含更清晰、逻辑更连贯的推理步骤。该研究通过分析这些 $T o p ‑ k$ 候选项，其实对于类似于 $k \neq 0$ 有明显的思维链结构（CoT）的回答得到的结论，模型通常会有更高的置信度。

图5 CoT解码过程演示，每一步解码步骤中考虑多条解码路径

CoT解码的核心在于在每一次解码过程中生成多个候选token，从而形成多条并行的候选推理路径，并在路径级别通过logits或其他评分指标选出最有可能形成连贯推理链的路径。对于希望零训练地挖掘预训练LLM或其他阶段LLM的潜在推理能力而言，多路径CoT解码是一种非常有效的方法，因为它能够充分利用模型已学到的链式思维模式。笔者个人认为，其美中不足在于——虽然CoT解码能够比其他解码方式更全面地展现模型潜在推理能力，但由于其多路径搜索机制需要同时维护和评估多条候选路径，因此在内部计算过程中可能消耗更多token的分析和处理资源（但最终输出token数未必增加）。

2 预训练阶段中潜在推理能力的形成

在Yue等人在2025年研究中得到观察。该工作对Qwen、LLaMA等基础模型及其经过强化学习微调的版本进行了系统比较。实验结果表明，当k较小时，强化学习模型的Pass@k通常明显高于基础模型；然而随着k的增加，基础模型的Pass@k会逐渐逼近强化学习模型，在部分任务上甚至可能出现反超现象。这一现象表明，在基础模型的输出分布中可能已经存在能够得到正确答案的推理轨迹，只是这些轨迹在原始分布中的概率相对较低，因此在小规模采样时较难被触发。

图6 基础模型及其经RLVR训练的变体在多个数学基准数据集上的Pass@k曲线

一种较为合理的解释是：经过大规模预训练的大语言模型，其输出分布中可能已经包含一定数量的潜在正确推理路径，而强化学习微调的作用之一在于对模型输出分布进行重新分配，使这些推理路径在采样过程中更容易被生成，从而在小规模采样下表现出更高的正确率。

类似的预训练LLM推理也可以从Denny Zhou等人提出的Chain-of-Thought解码方法中得到展现。在该工作中，研究者在未经过强化学习微调的基础模型上，通过引入多路径采样策略以及高置信度筛选，成功提取出模型在解决复杂问题时的中间推理过程，并显著提升了模型在推理任务上的表现。

综合这些观察，可以得到一个较为合理的结论：完成大规模预训练的大语言模型，其参数中可能已经隐含了一定程度的潜在推理能力；而强化学习微调以及推理阶段的解码策略，则在很大程度上影响了这些能力能否被稳定地激发和使用。

3 LLM问题求解能力的来源

如果上述解释成立，那么一个更有意思的问题就随之出现了：大语言模型在解决复杂问题时所表现出的能力，究竟可能来自哪里？接下来，我们将从几个不同的角度，一起看看LLM解决问题能力可能的来源。

从理论层面看：

Denny Zhou在一次关于大语言模型推理能力的演讲中提出过一个重要观点：从本质上，大语言模型为一种概率模型。在预训练阶段，模型通过对海量文本数据进行学习，估计token与token之间的条件概率分布关联，从而能够在给定上下文的情况下预测下一个最可能出现的token。

图7 不同大小均为1GB的数据集上的压缩率（压缩大小/原始大小），这个值越小越好。对于神经网络模型而言，原始压缩率不考虑参数大小，而调整后的压缩率则将参数大小视为压缩大小的一部分

图7中，序列预测器Transformer、Llama 2和Chinchilla均为预测模型，研究者们通过算术编码将其用作无损压缩器。其中从头训练Transformer、Chinchilla模型。但是由此得到的Transformer会过拟合，而大型语言模型则是适用于多种数据的优秀压缩器。这里证明了一种观点——“语言建模即压缩”。

在预训练过程中，大多数语言模型通常以最小化交叉熵损失作为优化目标。该目标函数在信息论中具有明确含义：当模型的预测分布逐渐逼近真实数据分布时，交叉熵的最小化等价于提高模型对数据分布的编码效率。从信息论角度来看，这意味着模型逐渐学习到一种能够更有效表示自然语言统计结构的方式。这一观点可以追溯到香农（Claude Shannon）所提出的信息论框架：如果能够更准确地预测符号出现的概率，就能够以更接近最优的方式对信息进行编码。

为什么预测符号出现的概率越准确，就能够以更接近最优的方式对信息进行编码？
假设真实分布是 $p (x)$ ，模型预测分布是 $q (x)$ 。最优前缀编码的基本思想是符号 $x$ 的理想编码长度 $L (x)$ 满足 $L (x) \approx - \log_{2} p (x)$ ，也就是说符号出现的概率越大则编码长度越短。其中，信息源理论上平均每个符号的最小编码长度由信息熵表示，即 $H (p) = - \sum p (x) \log_{2} p (x)$ 为定值。实际应用中如果按照模型预测分布 $q (x)$ 去进行编码，得到的平均编码长度即为交叉熵：
$H (p, q) = - \sum p (x) \log_{2} q (x)$
并且：
$H (p, q) = H (p) + D_{K L} (p | | q)$
当模型预测分布 $q (x)$ 越接近真实分布 $p (x)$ ， $D_{K L}$ 散度就会越小。这意味着实际的平均编码长度 $H (p, q)$ 会越发逼近理论最优的平均编码长度 $H (p)$ ，从而能够以更接近最优的方式对信息进行编码。

因此，从信息论视角来看，语言建模任务可以被视为对自然语言分布的估计过程，其目标是在统计意义上逼近文本数据的最优编码。

图8 分词器、BPE、词表大小和压缩率的相关研究

类似地，深度学习之父辛顿（Geoffrey Hinton）在一次演讲中也提出，大规模的模型在训练过程中通过对数据结构进行高度压缩，从而在参数中形成对世界结构的抽象表征。在这种视角下，大模型所表现出的“智能”，极有可能与其在训练过程中所获得的高效信息表示与压缩能力有关。

从某种意义上看，这一过程可以类比为一种信息压缩与表示学习的过程。作为一种形象的类比，可以将其与生物进化中的信息编码进行比较：在生物系统中，DNA作为遗传信息的载体，本质上也是长期演化过程中对环境信息的一种高度压缩与编码的结果。例如，一段DNA序列通过密码子编码氨基酸，从而指导蛋白质的合成，而蛋白质结构进一步决定了生物体的功能与性状。也就是说，大量与生存环境相关的功能信息，最终以高度紧凑的形式被编码在DNA序列之中。同样地，大语言模型在预训练阶段所形成的参数结构，也可以被理解为对大量文本信息统计规律的一种压缩表示。两者在某种程度上都通过对复杂信息进行压缩与编码，从而形成能够刻画环境或数据分布结构的抽象表示。

从实验中观察：

要探讨这一问题，或许可以追溯到神经网络训练算法——梯度反向传播（back-propagation）的早期研究。在20世纪80年代初期，神经网络研究逐渐重新受到关注，但当时的符号主义学派普遍认为：神经网络内部缺乏显式的结构表示，因此难以对输入信息形成抽象的概念表征。

然而，这一观点在随后的一系列研究中受到了挑战。例如，Geoffrey Hinton等人在其经典论文中展示了一个著名的家谱（family tree）实验。在该实验中，研究者构建了一个包含人物及其亲属关系的数据集，并训练一个简单的多层神经网络，使其根据输入的人物与关系预测对应的目标人物。例如：

(P e r s o n, R e l a t i o n) \to T a r g e t P e r s o n

通过对家族关系数据进行反向传播训练，网络逐渐学会了不同人物之间的关系映射。在模型训练完成后，研究者进一步分析了隐藏层单元的激活模式，发现这些隐藏单元并非随机工作，而是捕捉到了任务中的潜在结构。例如，一些隐藏单元对人物的性别或国籍具有较强的响应，而另一些单元则能够区分不同的家族分支关系。这一现象表明，神经网络在训练过程中能够通过反向传播自动从数据中提取潜在结构，并在隐藏层中形成一种分布式表征（distributed representation）。换言之，抽象概念并不是以单一符号的形式存储，而是由多个神经元的联合激活模式共同表示。

这一实验在当时具有重要意义，因为它直接反驳了符号主义学派“神经网络无法形成抽象表征”的观点。研究结果表明，即使是结构相对简单的神经网络，也能够在学习过程中自动发现数据中的结构规律，并利用这些内部抽象表征实现对未见样本的泛化。从更广泛的角度来看，这一思想为后来的表示学习和分布式嵌入（embedding）奠定了基础。现代深度学习模型（包括大语言模型），本质上仍然依赖类似的机制：通过梯度优化不断调整网络参数，使隐藏层逐渐形成能够捕捉数据结构的内部表示，从而支持更复杂的推理和泛化能力。

通过反向传播以及海量文本语料训练的LLM，能够使用庞大网络结构中的参数配合捕捉复杂的语义特征。从机制上看，这意味着LLM可能会将解决问题的潜在逻辑（如推理范式或结构化模式）隐式地编码到了模型权重之中。更重要的是，由于模型提取并内化的是高度抽象的问题求解框架，而非针对特定任务的死板规则，因此它获得了强大的泛化与迁移能力（Zero-shot、Few-shot泛化），能够将学习到逻辑灵活应用于未见过的类似问题中。

2017年，Transformer架构的提出极大推动了自然语言处理的发展，也为后续大语言模型（LLM）的出现奠定了基础。直到2022年ChatGPT的出现，越来越多的人开始关注其中发挥核心作用的Transformer结构。2021年，Mor Geva等人在中对Transformer中的重要组成部分——前馈神经网络（Feed-Forward Network, FFN）的内部机制进行了深入研究。

在这项研究中，作者将FFN层中的神经元视为一种 “键值记忆结构（key-value memory）”。具体来说，研究者首先寻找能够强烈激活某个神经元的输入前缀（triggering prefixes），并收集每个神经元最强的前25个触发前缀。随后，由人工专家对这些触发前缀进行语义类别标注，从而分析不同层神经元所捕获的语言模式。

实验结果表明，不同深度的FFN层往往学习到不同类型的语言特征：

较浅层（如1-9层） 的神经元通常会被一些表层语言模式触发，例如固定短语、词形模式或常见的局部上下文结构。这些模式往往具有明显的表层相关性，与输入前缀中的关键词具有较强的词面联系。
较深层（如10-16层） 的神经元则更容易对更抽象的语义或语法特征产生响应，例如某些语义关系、实体类型或特定语境中的语言模式，而不仅仅是简单的词面匹配。

这一结果说明，在Transformer中FFN层并不仅仅是简单的非线性变换，而更像是存储了大量语言范式的记忆单元：输入的上下文通过注意力机制整合信息后，会在FFN层中激活对应的模式，从而影响最终的token预测。

因此，结合对Attention的研究分析，可以从一个合理角度理解Transformer的工作机制：Attention主要负责计算token之间的相似度并以此进行上下文信息的加权聚合（Information Routing），而前馈网络（FFN）则是负责重组和加工这些来自于Attention的上下文信息。在FFN中，较浅层更倾向于捕获局部和表层的语言模式（类似于“模式匹配”），而较深层则逐渐形成更抽象的语义或语法表示。浅层和深层之间的协同则关键在于残差连接：它使得每一层在保留已有表示的基础上对其进行增量更新。浅层所捕获的表层模式与深层提取的语义信息会在多层结构中不断叠加，从而使模型的表示逐渐被细化（refinement），并最终在预测下一个token时形成更加合理的概率分布。

自DeepSeek-R1的出现，其花了较低的训练成本，表现能力就可以和当时OpenAI-o1的能力媲美。R1的基础模型（V3）的架构特征是MoE，让更多人注意到了MoE架构的潜力（多个 FFN 代替一个 FFN）。相同的是， MoE的每个专家依然执行和普通FFN同样的非线性重组和加工信息的功能；不同的是，来自Attention的信息需要经过路由门控网络，选择性地分配给 $T o p - k$ 个"专家"进行细化处理。（比如DeepSeek-V3有256个专家，但每个token只激活其中8个，这就是为什么模型总参数很大（671B），但实际激活参数很少（37B），从而降低了计算成本。）

除了学习抽象模式之外，研究也发现模型在某些情况下会记住部分训练数据中的片段。在一项研究中，研究人员通过特定的提示策略，从一些大型语言模型中生成出了与《哈利·波特》系列文本高度相似的大段内容。在某些情况下，模型生成的整体文本与原文的相似度甚至超过90%。

然而，如果LLM仅仅是一台”复读机“，其依然无法解决未见过的复杂问题。真正赋予其问题求解能力的，是模型参数在记忆字面文本之外，还隐式地压缩并内化了深层的结构化知识和解题模式。巧妙地唤醒这些抽象模板，才是大模型发挥推理能力的重要途径。比如，Google DeepMind科学家Denny Zhou团队的一项研究展示了这一点：当直接要求顶级大语言模型求解一道复杂的几何计算题时，模型通常会失败；但如果在使用提示词时加上一句“回忆一个相关的几何问题，然后解决当前问题”，模型就能被成功激发，给出正确的解答。团队将这种通过引导模型自主生成相关背景知识来辅助当前计算的方法称为LLM的类比推理。

图11 类比推理

总结之前对理论和部分实验的分析来看，当模型对训练数据的压缩程度不断深入时，仅靠记忆表层的统计共现模式将不再足够——模型需要逐步捕捉更深层的结构性规律（如逻辑推理范式、因果关系乃至基本的数理法则），才能进一步降低预测误差。基于此，笔者认为一个较为合理的解释是：LLM的推理能力或许并非来源于单一机制，而是记忆（Memorization）与参数中隐式编码的抽象压缩规律（Generalization）二者协同作用的结果。前者使模型能够存储和调用具体的知识片段，后者则使模型在面对新问题时，能够基于其内化的结构化模式进行类比和推断。这种压缩与记忆的协同，可以被视为模型形成某种隐式"理解"的基础。

当压缩比超过某个临界点时，模型不再能通过简单的记录来降低交叉熵损失值，它必须通过“理解”世界的运行逻辑（比如数学规则、因果关系）来节省空间。这种从“量变（数据堆砌）”到“质变（逻辑涌现）”的过程，才或许是LLM求解能力的终极答案。

后训练

在2025年Mind Lab对后训练的研究中，他们对不同规模的模型分别进行基于强化学习（RL）的后训练（使用LoRA实现参数高效更新），发现以规模更大或表现能力更强的LLM作为基座模型，得到的效果往往优于规模小或能力不足的模型。对此给出的解释是：RL依赖基座模型提供足够好的策略初始化（先验能力）——如果基座模型本身能力不足，RL便难以在其基础上探索到更合理的推理轨迹，后训练的收益也因此有限。

图12

在Yue等人的研究、李飞飞团队针对Qwen系列模型的1000条高质量数据微调研究，以及DeepSeek-R1的技术报告中，研究者们得出了一个的结论：尽管经过SFT（监督微调）或RL（强化学习）等后训练过程，LLM在解决具体任务时的表现有显著提升，但这并没有为模型注入新的基础知识或提升其绝对能力上限。一种合理的解释是：对于已完成预训练的LLM而言，后训练本质上是对预训练阶段所积累潜能的“激发”与“对齐”，换言之，预训练构筑了模型能力的基石，而后训练是让这些内化的能力以更符合人类预期或逻辑规范的方式展现出来。

也有观点认为，采用知识蒸馏的方式——即用能力更强的教师模型合成高质量的推理思维链，再以此数据微调学生模型可以突破学生模型自身的能力边界。这与纯RL后训练有本质区别：RL仅依赖模型自身的探索，因而受限于预训练所积累的能力上限；而蒸馏则引入了来自教师模型的外部知识和推理模式，相当于为学生模型注入了其预训练阶段未曾覆盖的信息，从而既可以扩展其知识覆盖面（事实性知识），也可以迁移更强的推理策略与模式。DeepSeek-R1的报告也印证了这一点：将R1的推理能力蒸馏到较小模型后，小模型的表现甚至优于对其直接进行RL训练的结果。

不过，无论是蒸馏还是其他办法，其效果本质上应该会受制于预训练所奠定的能力基础——学生模型必须具备足够的表征能力（学生模型的容量足够），才有可能真正“接住”额外的知识（OOD）。

后训练的办法

后训练的办法主要包括监督微调（SFT）、强化学习（RL）、知识蒸馏（Distillation）等。

一些常见的具体后训练方法描述可以参考diy-llm第十四章可验证奖励的强化学习，这里就不再详细展开描述了。

在RL微调过程中，若使用AI验证器（奖励模型）动态地为模型输出提供奖励信号（核心为：直接优化目标对象），则极有可能出现奖励欺骗（reward hacking）现象——即模型学会利用奖励模型的漏洞获取高奖励，而非真正提升输出质量。目前，缓解这一问题的一种方法是在优化目标中引入 $D_{K L}$ 散度惩罚项，以约束微调后的策略分布与原始参考策略分布之间的偏离程度。

由基础模型强化学习微调得到DeepSeek-R1的过程中，模型学会自我反思修正错误的推理步骤等一些有助于推理的新能力，从而提升了模型的表现能力。

CoT

随着各种具备强大Agent能力的应用不断涌现，比如最近火遍全球的“养龙虾🦞”。LLM的API账单却出现了明显的逆势增长，一方面这是因为Agent在执行复杂任务时需要频繁调用模型，并不断叠加历史上下文；另一方面，还有一个隐藏在背后的“吞金兽”——越来越长、甚至逐渐失控的思维链。CoT最早由Google Research团队在2022年的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出。研究表明，通过让模型在回答问题时显式生成中间推理步骤，可以显著提升其在数学推理和复杂问题上的表现。由于这一方法在当时取得了显著的效果，CoT很快成为大语言模型研究中的一个重要方向，也引发了大量后续工作。

在随后的研究中，不少工作开始尝试在后训练阶段通过优化奖励函数，鼓励模型生成更长、更详细的思维链，以期进一步提升模型的推理能力和任务表现。然而，这也带来了一个值得深入思考的问题：思维链越长，LLM的表现真的就越好吗？

图13 (a) 一个6层GPT2模型在不同难度级别的算术任务上的表现呈倒U形曲线。随着任务难度的增加，准确率峰值逐渐向更长的思维链长度偏移；(b) 随着强化学习训练的进行以及模型在推理任务上的准确率提升，使用在LeetCode-2K数据集上通过GRPO训练的Qwen2.5-7B-Instruct进行了这项实验。

2025年，北大团队为这个现象提供了更精确的刻画。他们通过控制实验构造了不同长度的推理链，并在多个难度梯度的任务上绘制出长度-准确率曲线。结果发现，思维链长度与最终准确率之间呈现倒U型关系：在一定范围内，随着思维链长度的增加，模型表现稳步提升；然而一旦超过某一CoT最优长度阈值，性能增益便趋于饱和，甚至出现显著下降。

对此，一个合理的解释是：CoT本质上充当了LLM解题过程中的“草稿纸”。适度延长推理步骤，使模型得以在中间过程中进行自我验证与修正，从而提升自洽性，能有效增强其解决问题的能力。但当这一过程过度拉长时，基于Transformer架构的LLM会受到有限上下文窗口的制约——长距离依赖下注意力被不断稀释，关键信息逐渐被遗忘，模型反而陷入反复修改却无法收敛的“恶性循环”，最终导致错误率上升。

2026年2月，Google研究团队在论文Think Deep, Not Just Long中提出了一个新的推理度量指标—— DTR（Deep Thinking Ratio）。该指标试图刻画一个问题：在模型生成推理过程时，究竟有多少token真正参与了深层计算（“深度思考”）？

图14 DTR和解决问题accuracy的关系

具体而言，研究者通过分析Transformer各层对同一token的预测分布变化来判断该token的“收敛层”。如果某个token的预测在浅层网络中就已经基本稳定，那么它会被视为浅层token；而如果预测分布在较深层网络中仍然持续发生明显变化，直到后期层才趋于稳定，则被标记为 “deep-thinking token”。在此基础上，研究者将生成序列中这类token的比例定义为DTR。实验结果表明，在多个推理任务中，DTR与模型的任务准确率呈现明显的正相关关系：当模型在生成过程中产生更多需要深层计算才能确定的token时，往往更容易得到正确答案。这一发现从模型内部计算的角度，为“推理能力”的衡量提供了一种新的视角。有意思的是，这一指标也从侧面揭示了一个长期存在的现象：更长CoT并不一定意味着更强的推理能力。在许多情况下，推理链中可能包含大量在浅层即可确定的token（例如语法结构、填充词或模式化表达），这些token虽然增加了文本长度，但并未显著增加模型的实际计算深度。而DTR的提出，某种程度上正是为了区分 “推理长度”（reasoning length） 与 “推理深度”（reasoning depth）。

不过需要注意的是，DTR本质上是一个 统计性指标。在真实的推理过程中，浅层token与深层token往往共同构成完整的推理结构：前者可能负责组织语言结构，后者则可能承担关键的计算与推断。因此，如果未来尝试利用DTR来控制或优化CoT推理，或许还需要结合更多维度的信息，例如推理过程中的注意力分布、token不确定性或推理路径一致性等指标，从而更全面地增加CoT的有效长度。

DTR实际上在回答一个很关键的问题：LLM在推理时到底是在“努力思考”，还是只是“凑字数的过度思考（overthinking）”。“推理长度 ≠ 推理深度：DTR提供的新视角”。

Prompt引导

Prompt的设计包含许多实用技巧。通过合理运用这些技巧，用户往往可以更充分地激发大语言模型（LLM）在问题求解、分析与生成任务中的潜在能力，从而提升交互体验和输出质量。参考OpenAI的提示词工程指南以及其他开源实践，下面介绍几种常见且实用的Prompt编写技巧：

明确任务目标 在Prompt中清晰地描述任务要求，包括任务类型（如问题求解、文本生成、代码编写等）、输入信息以及期望的输出形式。例如，可以明确要求“以列表形式输出”或“给出逐步推理过程”。清晰的任务指令能够帮助模型更准确地理解用户意图，从而生成更符合预期的结果。
提供必要的背景信息 当任务涉及特定领域知识时，可以在Prompt中补充相关背景信息。例如，在解决数学问题时，可以说明问题类型（如代数、几何等），或者提供相关公式与概念。需要注意的是，背景信息应尽量简洁，可以采用关键词或要点式描述，避免Prompt过长。（过长的提示不仅可能接近模型的上下文窗口限制，还可能稀释模型的注意力，从而影响任务理解效果）
引导模型进行分步推理 对于需要复杂推理的问题，可以在Prompt中加入引导语句，例如“请逐步推理解决以下问题”等，这种方法可以鼓励模型生成更加完整的推理链，从而提升复杂问题的求解能力。在许多数学推理和逻辑推理任务中，这种方式往往能够显著提高模型表现。
合理使用分隔符与结构化提示 通过换行符、编号列表或特殊分隔符（如 ---、### 等）将Prompt中的不同部分进行清晰划分，可以帮助模型更好地理解输入结构。例如可以将Prompt拆分为任务描述、输入内容、输出要求等，这种结构化的提示方式可以显著提高Prompt的可读性，同时帮助模型更准确地解析任务信息。
减少模糊描述 在编写Prompt时，应尽量避免使用模糊或不确定的表达，例如“稍微增加”“适当减少”“多一点”等词语，而应使用更加具体的描述。例如可以直接给出字数范围、输出格式、示例结果等，明确的约束能够减少模型理解上的歧义，从而提高生成结果的稳定性。
提供示例 在Prompt中提供一到多个示例输入与对应输出，可以帮助模型更好地理解任务模式。这种方法被称为少样本提示。

例如：

text

输入：苹果
输出：水果

输入：胡萝卜
输出：蔬菜

通过这种示例模式，模型能够更容易学习到任务的映射关系，从而生成更加符合预期的结果。

角色提示 在Prompt中为模型设定一个特定角色，例如：“你是一名经验丰富的数学老师”、“你是一名专业的软件工程师”等这种方式能够在一定程度上引导模型生成更加符合特定领域风格的回答。在实际应用中，这种方法常被用于技术问答、写作辅助以及代码生成等场景。
约束输出格式 如果任务需要结构化结果，可以在Prompt中明确规定输出格式，例如JSON、表格、Markdown等，明确的格式约束可以降低模型输出的不确定性，同时也更方便后续程序进行解析和处理。

尽管通过这些设计Prompt技巧是一种较为直接的方法，可以帮助用户根据具体需求引导LLM生成更符合预期的结果，但这种方式仍然存在一定的局限性。一方面，高质量Prompt的编写往往依赖于用户对任务本身以及模型能力的理解，因此在一定程度上需要用户具备相关的先验知识。例如，当用户能够在Prompt中提供问题的分析思路、关键步骤或示例时，模型通常更容易在此基础上生成更加准确和完整的回答。另一方面，在缺乏清晰任务描述或有效提示信息的情况下，模型虽然仍然可以尝试给出答案，但生成结果的稳定性和质量往往会受到一定影响。因此，Prompt设计在提升模型表现的同时，也在一定程度上对用户的提示构建提出了先验要求。

外部工具搜索增强

图15 外部搜索工具+LLM

通常情况下，在LLM完成训练之后，其模型参数便不再发生变化，这意味着模型在预训练阶段所学习到的知识在一定程度上是静态的。由于预训练数据往往具有时间滞后性，模型可能无法直接获取最新的信息。因此，在实际应用中，往往需要通过调用外部工具来补充实时数据。例如，当用户询问“今天的天气如何？”时，LLM本身并不具备实时获取天气信息的能力，而是需要通过调用外部搜索或API接口（如天气服务或搜索引擎）来获取最新数据，再结合自身的语言理解与生成能力给出回答。

基于这一思路，近年来出现了一类结合“模型推理能力 + 外部工具调用”的系统。例如，Gemini Deep Research和OpenAI Deep Research等项目，通常会通过多轮搜索、信息筛选与综合分析等步骤，利用LLM的推理能力对检索到的信息进行整合，从而生成更加完整和可靠的研究型回答。

此外，研究者还提出了检索增强生成（RAG，Retrieval-Augmented Generation）等技术框架，通过在模型生成回答之前先从外部知识库中检索相关文档，并将检索到的信息作为上下文输入模型，从而在不改变模型参数的情况下增强其知识获取能力。这种方法能够有效提升模型在特定领域任务中的准确性，并减少因模型知识过时或幻觉（hallucination）带来的问题。

从某种意义上看，这类方法可以被理解为通过“外部记忆”和“工具调用”扩展大语言模型的能力边界，使其不再仅依赖于训练阶段所学习到的静态知识。

Denny Zhou在演讲的最后也提到一个观点：对于LLM解决问题的过程中，外部工具检索 + 推理 > 仅推理。

总结

综合上述分析，可以从多个角度理解大语言模型推理能力的来源。在预训练阶段，模型通过对大规模语料进行语言建模，学习到丰富的统计规律与抽象表征，这一过程在一定程度上类似于对语言与世界知识的压缩与编码，从而为后续的推理能力提供基础。其次，在后训练阶段（如SFT、强化学习），模型的行为被进一步对齐与优化，不仅使其更稳定地调用预训练中习得的潜在能力，还能让模型习得新的推理策略（如自我反思、验证与回溯），从而实质性地增强推理表现。

在实际使用过程中，诸如CoT、Prompt引导以及多路径采样等方法，通过将复杂问题分解为中间推理步骤，扩展了模型的有效计算深度，增加了推理时的计算量，从而使模型能够解决超出单步前向传播能力的复杂问题。此外，通过检索增强或工具调用等方式，LLM可以获取外部实时信息，弥补参数化知识在覆盖范围和时效性上的不足，为推理过程提供更准确的前提条件，从而间接提升复杂任务的解决效果。

从已有研究可以看出，我们需要从预训练阶段改善LLM的基础能力，而大语言模型能力的提升在很大程度上遵循Scaling Law：随着模型参数规模、训练数据规模以及计算量按合理比例协调扩展，模型的测试损失通常呈现出可预测的幂律下降趋势，从而带来整体性能的提升。然而，这一方法在实际应用中也面临一个重要挑战，即高质量人类文本数据的增长速度有限，模型训练逐渐接近可获取数据规模的上限。

针对这一问题，一些研究提出可以在预训练和后训练等多个阶段利用模型生成的合成数据来进一步扩展训练分布。在"持续进化 AI"相关研究中，模型可以通过生成新的训练样本，并结合筛选、评估或自我改进机制对这些样本进行迭代优化，从而在一定程度上缓解对人工标注数据的依赖。这一思路在表面形式上类似于AlphaGo Zero的自我博弈训练机制，但需要指出关键差异：AlphaGo Zero依赖于围棋规则提供的完美验证信号，而LLM面对的大多数开放性任务缺乏可靠的自动验证器，因此自我改进的效果受到验证信号质量的严重制约。此外，这种方法还面临模型坍塌的风险——反复在自身生成的数据上训练可能导致分布收窄与质量退化，因此通常需要引入外部验证信号和数据质量筛选机制加以保障。总体而言，合成数据方法更多是在扩展训练分布和提高能力利用效率，或许LLM能够突破所有人类知识的上限。

如果要借鉴AlphaGo Zero的成功经验，关键在于构建可靠的验证机制，而非简单地"设计奖励函数"。具体而言：
对于可验证问题（数学、代码），可以利用已有的客观验证器构建类似自我博弈的训练闭环，这已被证明有效（如DeepSeek-R1）；
对于开放式问题，不存在完美的奖励函数，当前只能依赖不完美的替代信号（人类偏好、模型互评等），且必须警惕奖励黑客和模型坍塌的风险；

笔者个人的一个设想是，在后训练阶段可以较大比例地引入模型生成的合成数据来扩展训练样本空间。在这一过程中，初期可以通过人工审核或高质量模型评估的方式对合成数据进行筛选，以确保训练数据具有较好的质量和合理性，从而避免低质量样本对模型能力产生负面影响，而后续迭代过程中，则可以通过统计指标对生成数据的分布进行监控，例如利用 $D_{K L}$ 等分布差异度量来衡量合成数据与原始数据分布之间的偏移程度，从而避免生成数据在多轮迭代过程中逐渐偏离真实数据分布。通过这种“人工筛选 + 分布约束”的方式，或许能够在一定程度上缓解对人工标注数据的依赖，同时保持训练数据质量的稳定。

这里有一个笔者困惑的问题，写到最后小伙伴们可以一起思考🤔🤔？
LLM在预训练过程中，已经形成了一套自身独有的知识压缩方式与隐含推理范式，这套范式未必与人类的思维习惯一致，但它或许是为模型自身的架构天然优化的。基于这一认知，一个值得探索的思路是：在构造合成推理数据时，是否可以不必强制对齐人类风格的思维链，而是允许模型以其"原生"的方式进行推理，随后再通过对齐阶段将最终输出转化为人类可读的形式。这一思路的本质逻辑在于——与其在推理过程的每一步都迫使模型模仿人类的线性思考方式，不如先释放其内在的推理潜力，再在输出端加一层"翻译对齐"来弥合人机表达之间的鸿沟。毕竟，强行将模型的高维推理过程约束在人类自然语言的框架中，从信息论的角度思考这个过程的本质上是用一个低维度表示去瓶颈化一个高维过程。

什么是LLM推理？ ​

预训练 ​

1 解码策略影响会推理能力的展现 ​

贪心解码策略 ​

多路径的CoT解码 ​

2 预训练阶段中潜在推理能力的形成 ​

3 LLM问题求解能力的来源 ​

后训练 ​

后训练的办法 ​

CoT ​

Prompt引导 ​

外部工具搜索增强 ​

总结 ​

参考资料 ​