第17章：概率作为逻辑的扩张——真值从 {0,1} 到 [0,1]

概率不是频率。它是理性信念在不确定性下的唯一相容表示。

第16章结尾留下了一个悬念：线性逻辑的语义暗示"真值"不再是一个简单的 ${0, 1}$ ，而是某种更丰富的结构。但那个方向——相位语义、相干空间——是一条技术上艰难的路，留给研究者。

有一条更宽阔的路。

如果"真值"不是非真即假，而是一个介于 0 和 1 之间的实数，会发生什么？如果这个实数表示的是某个智能体对命题为真的相信程度，推断规则又应该长什么样子？

这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本，而是它的逻辑基础版本：概率作为理性信念的表达，服从可以被演绎推导出来的法则。

17.1 两种概率的争论

"概率 $\frac{1}{2}$ "是什么意思？

频率主义的回答：抛这枚硬币无数次，正面出现的比例趋近于 $\frac{1}{2}$ 。概率是长程频率，只对可重复实验有意义。

贝叶斯主义的回答：我认为这枚硬币下一次落地为正面的可能性是 $\frac{1}{2}$ 。概率是信念的度量，对单次事件同样有意义。

这个争论持续了一个世纪，至今没有完全结束。但有一个问题，频率主义无法回答，而贝叶斯主义可以：

"明天下雨的概率是多少？"

明天只会发生一次。没有无限次重复。你无法等待无穷多个"明天"来测量频率。然而天气预报说 70% 的降雨概率，这个 70% 是有意义的——它描述的是预报员基于现有气象数据对"明天下雨"这个命题的信念强度。

贝叶斯概率论的核心主张是：概率是信念的逻辑，不是频率的统计。而且，一个理性智能体的信念必须服从概率公理——不是因为自然规律如此，而是因为违反概率公理的信念是不自洽的，会在推断中产生矛盾。

17.2 Cox 定理：公理的必然性

理查德·考克斯（Richard Cox）1946 年问了一个问题：如果你要用实数表达信念强度，使得这套表达方式是内部一致的，那么这些实数必须满足什么约束？

他的出发点是三条要求，每一条都是理性信念的最低标准：

要求一（有序性）：信念是可比较的。对于任意两个命题 $A$ 和 $B$ ，你对 $A$ 的相信程度要么高于、等于、或低于对 $B$ 的相信程度。

要求二（一致性）：对复合命题的信念，完全由对组成命题的信念决定。你对" $A$ 且 $B$ "的相信程度，是 $A$ 的信念度和"已知 $A$ 成立时对 $B$ 的信念度"的某个函数。

要求三（对偶性）：对 $A$ 的相信程度和对 $\neg A$ 的相信程度，是互补的——完全确信 $A$ 意味着完全不信 $\neg A$ 。

Cox 证明了：在这三条要求下，任何内部一致的信念度量，必然在某个单调变换的意义下等价于标准概率。也就是说，你可以选择不同的标度（用 $[0, 100]$ 而不是 $[0, 1]$ ），但推断规则的结构完全确定：

P (A \land B) = P (A) \cdot P (B ∣ A)

P (A) + P (\neg A) = 1

这不是实验发现的规律，而是理性自洽的必然结果。如果你用数字表达信念，而且你的信念是内部一致的，你就在用概率——你只是可能还没意识到这一点。

兔狲教授评

Cox 定理的结论让很多人误以为"贝叶斯是唯一理性的"。慢着——定理的前提是信念可以被实数线性序表示。如果你质疑这个前提，整个定理不适用。定理的力量来自前提，先把前提想清楚，再讨论结论的必然性。别把条件件的结论当成无条件的真理。

Cox 定理的哲学意涵

Cox 定理的深刻之处在于它的"唯一性"：满足理性要求的信念度量，在结构上是唯一的。这意味着概率论不是人类发明的一套工具——它是理性信念的必然形式。如果你拒绝概率论，你要么拒绝对信念进行比较（放弃有序性），要么接受信念间的内部矛盾。

这和第14章的精神完全一致：形式系统的公理不是任意约定，而是为了避免矛盾而必须接受的最低限度。Cox 定理把同样的逻辑应用于信念：为了避免不自洽，信念必须服从概率公理。

17.3 贝叶斯更新：推断规则的概率版本

有了概率作为信念度量，"推断"变成了什么？

在形式逻辑里，推断是从已知真命题产生新的真命题。在概率论里，推断是从已知观测更新对命题的信念度。

这个更新的规则，是概率论最重要的定理：

P (H ∣ E) = \frac{P (E ∣ H) \cdot P (H)}{P (E)}

用中文说清楚这四个量：

$P (H)$ ：在看到证据 $E$ 之前，对假设 $H$ 的相信程度——先验概率。
$P (E ∣ H)$ ：假设 $H$ 成立时，看到证据 $E$ 的概率——似然。
$P (E)$ ：在所有可能情况下，看到证据 $E$ 的概率——边际概率，归一化因子。
$P (H ∣ E)$ ：看到证据 $E$ 之后，对假设 $H$ 的新信念度——后验概率。

这就是贝叶斯定理，或者更准确地说，贝叶斯推断的核心操作。

但写成公式容易让人错过它的逻辑本质。更清楚的写法是：

后验 \propto 似然 \times 先验

（ $\propto$ 表示正比于， $P (E)$ 是常数归一化因子，不改变相对比例。）

这个式子说的是：看到证据之后的信念，是看到证据之前的信念经过证据加权之后的结果。证据通过似然函数作用于先验，把先验"推"到后验。

推断规则的结构类比

把贝叶斯更新和第14章的推断规则对比，相似处令人吃惊：

形式逻辑： $\frac{P \to Q P}{Q}$ （假言推理，消耗 $P$ 和 $P \to Q$ ，得到 $Q$ ）
贝叶斯： $P (H ∣ E) \propto P (E ∣ H) \cdot P (H)$ （消耗似然 $P (E ∣ H)$ 和先验 $P (H)$ ，得到后验 $P (H ∣ E)$ ）

两者都是"用已有的东西推出新的东西"，差别在于：形式逻辑的"已有的东西"是 ${0, 1}$ 值的真命题，贝叶斯的"已有的东西"是 $[0, 1]$ 值的信念度。贝叶斯推断是把假言推理扩张到连续真值域上的版本。

17.4 先验：推断从不从零开始

贝叶斯推断有一个让很多人不舒服的地方：你需要一个先验。

先验是你在看到任何证据之前就已经持有的信念。这从哪里来？如果我完全不知道，先验是什么？

频率主义者认为这个要求是贝叶斯方法的致命弱点——先验是主观的，不同的人可以有不同的先验，得到不同的后验，谁说谁对？

贝叶斯主义者的回答分两层。

第一层：先验不是任意的。理性先验受到各种约束。最基本的约束是对称性：如果你对某种情况一无所知，你没有任何理由让先验偏向任何一侧。这给出了"无信息先验"——在没有任何偏好信息时，分配均匀先验（对离散情况）或最大熵先验（对连续情况）。

第二层：先验的影响随证据增多而消退。这是贝叶斯更新的一个数学定理：在足够多的独立观测之后，无论你从哪个先验出发，后验都会收敛到同一个位置。主观先验是暂时的，数据是客观的，理性智能体最终会达成共识。

用一个极端的例子说明。假设两个人争论某枚硬币是否均匀：一个人先验认为正面概率是 0.99，另一个人认为是 0.01。他们同时观察这枚硬币被抛 1000 次，其中 503 次正面。贝叶斯更新之后，两个人的后验都会集中在 0.5 附近——相差悬殊的先验，被证据淹没了。

这个收敛性质是贝叶斯方法客观性的来源：不是先验的客观，而是推断过程的客观。

17.5 逻辑与概率：真值的连续化

回到第14章的基本问题：可靠性和完备性。

在经典逻辑里，这两条性质说的是句法（ $⊢$ ）和语义（ $⊨$ ）之间的关系：能证明的都是真的（可靠），所有真的都能证明（完备）。

在概率论里，这两层关系变成了什么？

概率的"可靠性"对应：贝叶斯更新保持相干性（Coherence）。如果你的初始信念满足概率公理，贝叶斯更新后的信念也满足。推断不会制造内部矛盾，不会让你对某件事同时持有正概率和负概率。这是可靠性的概率版本。

概率的"完备性"问题：经典逻辑的不完备性（哥德尔定理）在概率框架里变成什么？这是一个更微妙的问题。概率推断不会遇到"不可证命题"——因为每个命题总有一个概率，即使它是先验给出的 0.5（完全不确定）。但这并不意味着所有真相都可以被概率推断发现——它只是意味着不确定性被明确地量化了，而不是逻辑上被阻塞了。

形式逻辑和概率：不是竞争者，是不同的真值尺度

形式逻辑和概率论经常被当作两种"推理方法"放在一起对比，好像只能选一个。但准确地说，它们生活在不同的层次：形式逻辑处理的是完全确定的信息（某个命题要么在模型里为真，要么为假），概率论处理的是不完全的信息（某个命题可能为真，可能为假，我的信念度是 $p$ ）。

一个更完整的图景是：形式逻辑是概率论在真值域退化为 ${0, 1}$ 时的极限情况。当所有命题的概率都是 0 或 1（完全知情的智能体），贝叶斯推断退化为布尔推断。这不是对形式逻辑的否定，而是它的泛化。

17.6 信念更新的连锁：从推断到学习

贝叶斯更新是一个单步操作：拿到一个证据，更新一次信念。但推断通常是连续的——你一个接一个地观察证据，每次都更新。

这个连锁操作的结构，正是机器学习的形式基础。

设想一个参数 $θ$ ，它决定了一个模型的行为（比如，某枚硬币的真实正面概率）。你对 $θ$ 有先验 $P (θ)$ 。然后你观察数据 $D = {x_{1}, x_{2}, \dots, x_{n}}$ ，一次一个地更新：

P (θ ∣ x_{1}) \propto P (x_{1} ∣ θ) \cdot P (θ)

P (θ ∣ x_{1}, x_{2}) \propto P (x_{2} ∣ θ) \cdot P (θ ∣ x_{1})

⋮

P (θ ∣ D) \propto P (D ∣ θ) \cdot P (θ) = (\prod_{i = 1}^{n} P (x_{i} ∣ θ)) \cdot P (θ)

最终的后验 $P (θ ∣ D)$ 是你在看完所有数据后，对参数 $θ$ 的信念分布。

这就是贝叶斯学习：学习不是找到"正确的"参数，而是把对参数的信念分布从先验推到后验。参数不是一个点，而是一个分布——你对它有多大把握，分布的宽窄会告诉你。

这个框架和上卷第5章讨论的过拟合形成了有趣的对话：过拟合是因为模型把训练数据的噪声当成了信号，而贝叶斯框架天然地抵抗过拟合——正则化项，对应的正是先验对参数的约束。宽松的先验对应弱正则化，尖锐的先验（集中在特定参数范围的）对应强正则化。奥卡姆剃刀——"更简单的解释优先"——在贝叶斯框架里有了精确的数学表达：复杂模型需要更多数据才能打败先验对简单性的偏好。

最大后验估计（MAP）与最大似然估计（MLE）的关系

在贝叶斯框架里，常用的"点估计"做法是取后验的众数： $\hat{θ} = \arg max_{θ} P (θ ∣ D)$ ，叫做最大后验估计（MAP）。展开：

{\hat{θ}}_{MAP} = \arg max_{θ} [\log P (D ∣ θ) + \log P (θ)]

如果先验 $P (θ)$ 是均匀的（所有参数同等可能）， $\log P (θ)$ 是常数，MAP 退化为最大似然估计（MLE）： ${\hat{θ}}_{MLE} = \arg max_{θ} P (D ∣ θ)$ 。MLE 是"先验无偏"时的贝叶斯推断。这个推导说明，最大似然估计不是一个独立的推理原则，而是贝叶斯推断在均匀先验下的特例。

17.7 概率无法捕捉的东西

到这里，概率论看起来几乎是万能的：它把逻辑推断推广到连续真值，解释了理性信念的必然形式，给出了学习的形式框架。

但它有一个根本的局限，在上卷第6章已经见过它的影子，这里需要用形式语言说清楚。

概率描述的是相关性，不是因果性。

考虑两个变量 $X$ 和 $Y$ ，它们的联合分布 $P (X, Y)$ 被完整地知道。你可以计算 $P (Y ∣ X = x)$ ——给定 $X$ 取某个值时， $Y$ 的条件分布。但这个条件概率，无法区分以下三种情况：

$X$ 导致 $Y$ （因果： $X \to Y$ ）
$Y$ 导致 $X$ （因果： $Y \to X$ ）
$X$ 和 $Y$ 都是某个共同原因 $Z$ 的结果（混淆： $X \leftarrow Z \to Y$ ）

所有三种情况，可以产生完全相同的联合分布 $P (X, Y)$ 。概率，无论更新多少次，无论观察多少数据，都无法从数据本身区分这三种情况。

这不是方法的缺陷，而是数学的结构性限制：关联关系的信息，不包含因果方向的信息。

兔狲教授评

这是整个概率论课程里最容易被跳过、代价最高的一句话。无数篇论文用条件概率回答因果问题。不是因为作者愚蠢，而是因为没有人在一开始就把这道墙画清楚。关联和因果，数学结构不同，不是量的差异，是种类的差异。就这样。

如果你想推断因果——回答"如果我干预 $X$ ， $Y$ 会怎么变"——你需要比概率更强的工具。这个工具，正是第18章的主角：因果演算（do-calculus）和结构因果模型。

悬而未决

主观性的边界在哪里？ Cox 定理证明了推断规则的唯一性，但没有规定先验。不同的先验给不同的智能体，他们观察同样的数据，最终会达成共识吗？在什么条件下会，在什么条件下不会？这是贝叶斯统计里的"先验选择"问题，至今没有普遍答案。

量子概率是贝叶斯概率的推广吗？ 量子力学里的概率——玻恩规则——和贝叶斯概率有着相似的数学结构，但量子态的坍缩机制和经典贝叶斯更新有本质差异。是否存在一个统一的框架，把经典概率和量子概率都纳入"理性信念的逻辑"？这是量子贝叶斯主义（QBism）尝试回答的问题，答案还在争论中。

概率是推断的天花板吗？ 第17.7节已经揭示了这个问题的答案：不是。概率无法区分相关和因果—— $X$ 和 $Y$ 高度相关，但你不知道是 $X$ 导致 $Y$ ，还是 $Y$ 导致 $X$ ，还是某个隐藏变量 $Z$ 同时驱动了两者。无论你观察多少数据、做多少次贝叶斯更新，这个问题的答案永远藏在概率的可见范围之外。

这不是方法的缺陷，而是数学的结构性事实：观测的信息，不包含干预的信息。要回答"如果我改变 $X$ ， $Y$ 会怎样"，你需要一种新的推断规则——一种把"改变"这个动作本身形式化的规则。这是第18章的起点。

思考题

★ 热身

一个医学检测对某种疾病的灵敏度（sensitivity）是 90%，特异度（specificity）是 95%。即：患病者有 90% 概率检测阳性，健康者有 95% 概率检测阴性。该疾病的人群患病率是 1%。

先用直觉估计：某人检测阳性，他实际患病的概率大约是多少？写下你的直觉答案，然后用贝叶斯定理算出准确值。

P (患病 ∣ 阳性) = \frac{P (阳性 ∣ 患病) \cdot P (患病)}{P (阳性)}

（提示： $P (阳性) = P (阳性 ∣ 患病) \cdot P (患病) + P (阳性 ∣ 健康) \cdot P (健康)$ 。把数字代入，看结果和你的直觉相差多少。）

★★ 推导

在上题的设定下：

第一次检测阳性后，以第一次的后验作为新的先验，再做第二次独立检测，结果仍为阳性。此时患病概率是多少？
如果这个人来自高风险群体，患病率是 10%（而非 1%），同样一次阳性检测后，患病概率是多少？
比较第1题（两次阳性，低风险人群）和第2题（一次阳性，高风险人群）的结果。哪种情况给出更高的患病概率？这说明了先验和证据之间什么样的关系？

★★★ 挑战

Cox 定理证明：任何满足三条理性要求的信念度量，在结构上等价于概率。但定理的第一条要求是"信念是可用实数线性序表示的"。

试着构造一个你认为合理的推断场景，其中对某个命题的信念无法被单个实数完整表达——也许需要两个数（比如"至少0.3，至多0.8"），或者需要一个分布。

这样的场景存在吗？如果存在，它说明Cox定理的前提不够普遍，还是说它只是"信念的某种精确化"在这个场景下不适用？用本章的语言尝试区分这两种可能性——不需要解决，只需要把问题说清楚。

第17章：概率作为逻辑的扩张——真值从 {0,1} 到 [0,1] ​

17.1 两种概率的争论 ​

17.2 Cox 定理：公理的必然性 ​

17.3 贝叶斯更新：推断规则的概率版本 ​

17.4 先验：推断从不从零开始 ​

17.5 逻辑与概率：真值的连续化 ​

17.6 信念更新的连锁：从推断到学习 ​

17.7 概率无法捕捉的东西 ​

悬而未决 ​

思考题 ​