⚠️ Alpha内测版本警告:此为早期内部构建版本,尚不完整且可能存在错误,欢迎大家提Issue反馈问题或建议。
Skip to content

第17章:概率作为逻辑的扩张——真值从 {0,1} 到 [0,1]

概率不是频率。它是理性信念在不确定性下的唯一相容表示。


第16章结尾留下了一个悬念:线性逻辑的语义暗示"真值"不再是一个简单的 {0,1},而是某种更丰富的结构。但那个方向——相位语义、相干空间——是一条技术上艰难的路,留给研究者。

有一条更宽阔的路。

如果"真值"不是非真即假,而是一个介于 0 和 1 之间的实数,会发生什么?如果这个实数表示的是某个智能体对命题为真的相信程度,推断规则又应该长什么样子?

这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本,而是它的逻辑基础版本:概率作为理性信念的表达,服从可以被演绎推导出来的法则。


17.1 两种概率的争论

"概率 12"是什么意思?

频率主义的回答:抛这枚硬币无数次,正面出现的比例趋近于 12。概率是长程频率,只对可重复实验有意义。

贝叶斯主义的回答:我认为这枚硬币下一次落地为正面的可能性是 12。概率是信念的度量,对单次事件同样有意义。

这个争论持续了一个世纪,至今没有完全结束。但有一个问题,频率主义无法回答,而贝叶斯主义可以:

"明天下雨的概率是多少?"

明天只会发生一次。没有无限次重复。你无法等待无穷多个"明天"来测量频率。然而天气预报说 70% 的降雨概率,这个 70% 是有意义的——它描述的是预报员基于现有气象数据对"明天下雨"这个命题的信念强度。

贝叶斯概率论的核心主张是:概率是信念的逻辑,不是频率的统计。而且,一个理性智能体的信念必须服从概率公理——不是因为自然规律如此,而是因为违反概率公理的信念是不自洽的,会在推断中产生矛盾。


17.2 Cox 定理:公理的必然性

理查德·考克斯(Richard Cox)1946 年问了一个问题:如果你要用实数表达信念强度,使得这套表达方式是内部一致的,那么这些实数必须满足什么约束?

他的出发点是三条要求,每一条都是理性信念的最低标准:

要求一(有序性):信念是可比较的。对于任意两个命题 AB,你对 A 的相信程度要么高于、等于、或低于对 B 的相信程度。

要求二(一致性):对复合命题的信念,完全由对组成命题的信念决定。你对"AB"的相信程度,是 A 的信念度和"已知 A 成立时对 B 的信念度"的某个函数。

要求三(对偶性):对 A 的相信程度和对 ¬A 的相信程度,是互补的——完全确信 A 意味着完全不信 ¬A

Cox 证明了:在这三条要求下,任何内部一致的信念度量,必然在某个单调变换的意义下等价于标准概率。也就是说,你可以选择不同的标度(用 [0,100] 而不是 [0,1]),但推断规则的结构完全确定:

P(AB)=P(A)P(BA)P(A)+P(¬A)=1

这不是实验发现的规律,而是理性自洽的必然结果。如果你用数字表达信念,而且你的信念是内部一致的,你就在用概率——你只是可能还没意识到这一点。

兔狲教授评

Cox 定理的结论让很多人误以为"贝叶斯是唯一理性的"。慢着——定理的前提是信念可以被实数线性序表示。如果你质疑这个前提,整个定理不适用。定理的力量来自前提,先把前提想清楚,再讨论结论的必然性。别把条件件的结论当成无条件的真理。

Cox 定理的哲学意涵

Cox 定理的深刻之处在于它的"唯一性":满足理性要求的信念度量,在结构上是唯一的。这意味着概率论不是人类发明的一套工具——它是理性信念的必然形式。如果你拒绝概率论,你要么拒绝对信念进行比较(放弃有序性),要么接受信念间的内部矛盾。

这和第14章的精神完全一致:形式系统的公理不是任意约定,而是为了避免矛盾而必须接受的最低限度。Cox 定理把同样的逻辑应用于信念:为了避免不自洽,信念必须服从概率公理。


17.3 贝叶斯更新:推断规则的概率版本

有了概率作为信念度量,"推断"变成了什么?

在形式逻辑里,推断是从已知真命题产生新的真命题。在概率论里,推断是从已知观测更新对命题的信念度。

这个更新的规则,是概率论最重要的定理:

P(HE)=P(EH)P(H)P(E)

用中文说清楚这四个量:

  • P(H):在看到证据 E 之前,对假设 H 的相信程度——先验概率
  • P(EH):假设 H 成立时,看到证据 E 的概率——似然
  • P(E):在所有可能情况下,看到证据 E 的概率——边际概率,归一化因子。
  • P(HE):看到证据 E 之后,对假设 H 的新信念度——后验概率

这就是贝叶斯定理,或者更准确地说,贝叶斯推断的核心操作。

但写成公式容易让人错过它的逻辑本质。更清楚的写法是:

后验似然×先验

表示正比于,P(E) 是常数归一化因子,不改变相对比例。)

这个式子说的是:看到证据之后的信念,是看到证据之前的信念经过证据加权之后的结果。证据通过似然函数作用于先验,把先验"推"到后验。

推断规则的结构类比

把贝叶斯更新和第14章的推断规则对比,相似处令人吃惊:

  • 形式逻辑:PQPQ(假言推理,消耗 PPQ,得到 Q
  • 贝叶斯:P(HE)P(EH)P(H)(消耗似然 P(EH) 和先验 P(H),得到后验 P(HE)

两者都是"用已有的东西推出新的东西",差别在于:形式逻辑的"已有的东西"是 {0,1} 值的真命题,贝叶斯的"已有的东西"是 [0,1] 值的信念度。贝叶斯推断是把假言推理扩张到连续真值域上的版本。


17.4 先验:推断从不从零开始

贝叶斯推断有一个让很多人不舒服的地方:你需要一个先验。

先验是你在看到任何证据之前就已经持有的信念。这从哪里来?如果我完全不知道,先验是什么?

频率主义者认为这个要求是贝叶斯方法的致命弱点——先验是主观的,不同的人可以有不同的先验,得到不同的后验,谁说谁对?

贝叶斯主义者的回答分两层。

第一层:先验不是任意的。理性先验受到各种约束。最基本的约束是对称性:如果你对某种情况一无所知,你没有任何理由让先验偏向任何一侧。这给出了"无信息先验"——在没有任何偏好信息时,分配均匀先验(对离散情况)或最大熵先验(对连续情况)。

第二层:先验的影响随证据增多而消退。这是贝叶斯更新的一个数学定理:在足够多的独立观测之后,无论你从哪个先验出发,后验都会收敛到同一个位置。主观先验是暂时的,数据是客观的,理性智能体最终会达成共识。

用一个极端的例子说明。假设两个人争论某枚硬币是否均匀:一个人先验认为正面概率是 0.99,另一个人认为是 0.01。他们同时观察这枚硬币被抛 1000 次,其中 503 次正面。贝叶斯更新之后,两个人的后验都会集中在 0.5 附近——相差悬殊的先验,被证据淹没了。

这个收敛性质是贝叶斯方法客观性的来源:不是先验的客观,而是推断过程的客观


17.5 逻辑与概率:真值的连续化

回到第14章的基本问题:可靠性和完备性。

在经典逻辑里,这两条性质说的是句法()和语义()之间的关系:能证明的都是真的(可靠),所有真的都能证明(完备)。

在概率论里,这两层关系变成了什么?

概率的"可靠性"对应:贝叶斯更新保持相干性(Coherence)。如果你的初始信念满足概率公理,贝叶斯更新后的信念也满足。推断不会制造内部矛盾,不会让你对某件事同时持有正概率和负概率。这是可靠性的概率版本。

概率的"完备性"问题:经典逻辑的不完备性(哥德尔定理)在概率框架里变成什么?这是一个更微妙的问题。概率推断不会遇到"不可证命题"——因为每个命题总有一个概率,即使它是先验给出的 0.5(完全不确定)。但这并不意味着所有真相都可以被概率推断发现——它只是意味着不确定性被明确地量化了,而不是逻辑上被阻塞了。

形式逻辑和概率:不是竞争者,是不同的真值尺度

形式逻辑和概率论经常被当作两种"推理方法"放在一起对比,好像只能选一个。但准确地说,它们生活在不同的层次:形式逻辑处理的是完全确定的信息(某个命题要么在模型里为真,要么为假),概率论处理的是不完全的信息(某个命题可能为真,可能为假,我的信念度是 p)。

一个更完整的图景是:形式逻辑是概率论在真值域退化为 {0,1} 时的极限情况。当所有命题的概率都是 0 或 1(完全知情的智能体),贝叶斯推断退化为布尔推断。这不是对形式逻辑的否定,而是它的泛化。


17.6 信念更新的连锁:从推断到学习

贝叶斯更新是一个单步操作:拿到一个证据,更新一次信念。但推断通常是连续的——你一个接一个地观察证据,每次都更新。

这个连锁操作的结构,正是机器学习的形式基础。

设想一个参数 θ,它决定了一个模型的行为(比如,某枚硬币的真实正面概率)。你对 θ 有先验 P(θ)。然后你观察数据 D={x1,x2,,xn},一次一个地更新:

P(θx1)P(x1θ)P(θ)P(θx1,x2)P(x2θ)P(θx1)P(θD)P(Dθ)P(θ)=(i=1nP(xiθ))P(θ)

最终的后验 P(θD) 是你在看完所有数据后,对参数 θ 的信念分布。

这就是贝叶斯学习:学习不是找到"正确的"参数,而是把对参数的信念分布从先验推到后验。参数不是一个点,而是一个分布——你对它有多大把握,分布的宽窄会告诉你。

这个框架和上卷第5章讨论的过拟合形成了有趣的对话:过拟合是因为模型把训练数据的噪声当成了信号,而贝叶斯框架天然地抵抗过拟合——正则化项,对应的正是先验对参数的约束。宽松的先验对应弱正则化,尖锐的先验(集中在特定参数范围的)对应强正则化。奥卡姆剃刀——"更简单的解释优先"——在贝叶斯框架里有了精确的数学表达:复杂模型需要更多数据才能打败先验对简单性的偏好。

最大后验估计(MAP)与最大似然估计(MLE)的关系

在贝叶斯框架里,常用的"点估计"做法是取后验的众数:θ^=argmaxθP(θD),叫做最大后验估计(MAP)。展开:

θ^MAP=argmaxθ[logP(Dθ)+logP(θ)]

如果先验 P(θ) 是均匀的(所有参数同等可能),logP(θ) 是常数,MAP 退化为最大似然估计(MLE):θ^MLE=argmaxθP(Dθ)。MLE 是"先验无偏"时的贝叶斯推断。这个推导说明,最大似然估计不是一个独立的推理原则,而是贝叶斯推断在均匀先验下的特例。


17.7 概率无法捕捉的东西

到这里,概率论看起来几乎是万能的:它把逻辑推断推广到连续真值,解释了理性信念的必然形式,给出了学习的形式框架。

但它有一个根本的局限,在上卷第6章已经见过它的影子,这里需要用形式语言说清楚。

概率描述的是相关性,不是因果性

考虑两个变量 XY,它们的联合分布 P(X,Y) 被完整地知道。你可以计算 P(YX=x)——给定 X 取某个值时,Y 的条件分布。但这个条件概率,无法区分以下三种情况:

  1. X 导致 Y(因果:XY
  2. Y 导致 X(因果:YX
  3. XY 都是某个共同原因 Z 的结果(混淆:XZY

所有三种情况,可以产生完全相同的联合分布 P(X,Y)。概率,无论更新多少次,无论观察多少数据,都无法从数据本身区分这三种情况。

这不是方法的缺陷,而是数学的结构性限制:关联关系的信息,不包含因果方向的信息

兔狲教授评

这是整个概率论课程里最容易被跳过、代价最高的一句话。无数篇论文用条件概率回答因果问题。不是因为作者愚蠢,而是因为没有人在一开始就把这道墙画清楚。关联和因果,数学结构不同,不是量的差异,是种类的差异。就这样。

如果你想推断因果——回答"如果我干预 XY 会怎么变"——你需要比概率更强的工具。这个工具,正是第18章的主角:因果演算(do-calculus)和结构因果模型。


悬而未决

主观性的边界在哪里? Cox 定理证明了推断规则的唯一性,但没有规定先验。不同的先验给不同的智能体,他们观察同样的数据,最终会达成共识吗?在什么条件下会,在什么条件下不会?这是贝叶斯统计里的"先验选择"问题,至今没有普遍答案。

量子概率是贝叶斯概率的推广吗? 量子力学里的概率——玻恩规则——和贝叶斯概率有着相似的数学结构,但量子态的坍缩机制和经典贝叶斯更新有本质差异。是否存在一个统一的框架,把经典概率和量子概率都纳入"理性信念的逻辑"?这是量子贝叶斯主义(QBism)尝试回答的问题,答案还在争论中。

概率是推断的天花板吗? 第17.7节已经揭示了这个问题的答案:不是。概率无法区分相关和因果——XY 高度相关,但你不知道是 X 导致 Y,还是 Y 导致 X,还是某个隐藏变量 Z 同时驱动了两者。无论你观察多少数据、做多少次贝叶斯更新,这个问题的答案永远藏在概率的可见范围之外。

这不是方法的缺陷,而是数学的结构性事实:观测的信息,不包含干预的信息。要回答"如果我改变 XY 会怎样",你需要一种新的推断规则——一种把"改变"这个动作本身形式化的规则。这是第18章的起点。


思考题

★ 热身

一个医学检测对某种疾病的灵敏度(sensitivity)是 90%,特异度(specificity)是 95%。即:患病者有 90% 概率检测阳性,健康者有 95% 概率检测阴性。该疾病的人群患病率是 1%。

先用直觉估计:某人检测阳性,他实际患病的概率大约是多少?写下你的直觉答案,然后用贝叶斯定理算出准确值。

P(患病阳性)=P(阳性患病)P(患病)P(阳性)

(提示:P(阳性)=P(阳性患病)P(患病)+P(阳性健康)P(健康)。把数字代入,看结果和你的直觉相差多少。)


★★ 推导

在上题的设定下:

  1. 第一次检测阳性后,以第一次的后验作为新的先验,再做第二次独立检测,结果仍为阳性。此时患病概率是多少?
  2. 如果这个人来自高风险群体,患病率是 10%(而非 1%),同样一次阳性检测后,患病概率是多少?
  3. 比较第1题(两次阳性,低风险人群)和第2题(一次阳性,高风险人群)的结果。哪种情况给出更高的患病概率?这说明了先验和证据之间什么样的关系?

★★★ 挑战

Cox 定理证明:任何满足三条理性要求的信念度量,在结构上等价于概率。但定理的第一条要求是"信念是可用实数线性序表示的"。

试着构造一个你认为合理的推断场景,其中对某个命题的信念无法被单个实数完整表达——也许需要两个数(比如"至少0.3,至多0.8"),或者需要一个分布。

这样的场景存在吗?如果存在,它说明Cox定理的前提不够普遍,还是说它只是"信念的某种精确化"在这个场景下不适用?用本章的语言尝试区分这两种可能性——不需要解决,只需要把问题说清楚。