第17章:概率作为逻辑的扩张——真值从 {0,1} 到 [0,1]
概率不是频率。它是理性信念在不确定性下的唯一相容表示。
第16章结尾留下了一个悬念:线性逻辑的语义暗示"真值"不再是一个简单的
有一条更宽阔的路。
如果"真值"不是非真即假,而是一个介于 0 和 1 之间的实数,会发生什么?如果这个实数表示的是某个智能体对命题为真的相信程度,推断规则又应该长什么样子?
这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本,而是它的逻辑基础版本:概率作为理性信念的表达,服从可以被演绎推导出来的法则。
17.1 两种概率的争论
"概率
频率主义的回答:抛这枚硬币无数次,正面出现的比例趋近于
贝叶斯主义的回答:我认为这枚硬币下一次落地为正面的可能性是
这个争论持续了一个世纪,至今没有完全结束。但有一个问题,频率主义无法回答,而贝叶斯主义可以:
"明天下雨的概率是多少?"
明天只会发生一次。没有无限次重复。你无法等待无穷多个"明天"来测量频率。然而天气预报说 70% 的降雨概率,这个 70% 是有意义的——它描述的是预报员基于现有气象数据对"明天下雨"这个命题的信念强度。
贝叶斯概率论的核心主张是:概率是信念的逻辑,不是频率的统计。而且,一个理性智能体的信念必须服从概率公理——不是因为自然规律如此,而是因为违反概率公理的信念是不自洽的,会在推断中产生矛盾。
17.2 Cox 定理:公理的必然性
理查德·考克斯(Richard Cox)1946 年问了一个问题:如果你要用实数表达信念强度,使得这套表达方式是内部一致的,那么这些实数必须满足什么约束?
他的出发点是三条要求,每一条都是理性信念的最低标准:
要求一(有序性):信念是可比较的。对于任意两个命题
要求二(一致性):对复合命题的信念,完全由对组成命题的信念决定。你对"
要求三(对偶性):对
Cox 证明了:在这三条要求下,任何内部一致的信念度量,必然在某个单调变换的意义下等价于标准概率。也就是说,你可以选择不同的标度(用
这不是实验发现的规律,而是理性自洽的必然结果。如果你用数字表达信念,而且你的信念是内部一致的,你就在用概率——你只是可能还没意识到这一点。
兔狲教授评
Cox 定理的结论让很多人误以为"贝叶斯是唯一理性的"。慢着——定理的前提是信念可以被实数线性序表示。如果你质疑这个前提,整个定理不适用。定理的力量来自前提,先把前提想清楚,再讨论结论的必然性。别把条件件的结论当成无条件的真理。
Cox 定理的哲学意涵
Cox 定理的深刻之处在于它的"唯一性":满足理性要求的信念度量,在结构上是唯一的。这意味着概率论不是人类发明的一套工具——它是理性信念的必然形式。如果你拒绝概率论,你要么拒绝对信念进行比较(放弃有序性),要么接受信念间的内部矛盾。
这和第14章的精神完全一致:形式系统的公理不是任意约定,而是为了避免矛盾而必须接受的最低限度。Cox 定理把同样的逻辑应用于信念:为了避免不自洽,信念必须服从概率公理。
17.3 贝叶斯更新:推断规则的概率版本
有了概率作为信念度量,"推断"变成了什么?
在形式逻辑里,推断是从已知真命题产生新的真命题。在概率论里,推断是从已知观测更新对命题的信念度。
这个更新的规则,是概率论最重要的定理:
用中文说清楚这四个量:
:在看到证据 之前,对假设 的相信程度——先验概率。 :假设 成立时,看到证据 的概率——似然。 :在所有可能情况下,看到证据 的概率——边际概率,归一化因子。 :看到证据 之后,对假设 的新信念度——后验概率。
这就是贝叶斯定理,或者更准确地说,贝叶斯推断的核心操作。
但写成公式容易让人错过它的逻辑本质。更清楚的写法是:
(
这个式子说的是:看到证据之后的信念,是看到证据之前的信念经过证据加权之后的结果。证据通过似然函数作用于先验,把先验"推"到后验。
推断规则的结构类比
把贝叶斯更新和第14章的推断规则对比,相似处令人吃惊:
- 形式逻辑:
(假言推理,消耗 和 ,得到 ) - 贝叶斯:
(消耗似然 和先验 ,得到后验 )
两者都是"用已有的东西推出新的东西",差别在于:形式逻辑的"已有的东西"是
17.4 先验:推断从不从零开始
贝叶斯推断有一个让很多人不舒服的地方:你需要一个先验。
先验是你在看到任何证据之前就已经持有的信念。这从哪里来?如果我完全不知道,先验是什么?
频率主义者认为这个要求是贝叶斯方法的致命弱点——先验是主观的,不同的人可以有不同的先验,得到不同的后验,谁说谁对?
贝叶斯主义者的回答分两层。
第一层:先验不是任意的。理性先验受到各种约束。最基本的约束是对称性:如果你对某种情况一无所知,你没有任何理由让先验偏向任何一侧。这给出了"无信息先验"——在没有任何偏好信息时,分配均匀先验(对离散情况)或最大熵先验(对连续情况)。
第二层:先验的影响随证据增多而消退。这是贝叶斯更新的一个数学定理:在足够多的独立观测之后,无论你从哪个先验出发,后验都会收敛到同一个位置。主观先验是暂时的,数据是客观的,理性智能体最终会达成共识。
用一个极端的例子说明。假设两个人争论某枚硬币是否均匀:一个人先验认为正面概率是 0.99,另一个人认为是 0.01。他们同时观察这枚硬币被抛 1000 次,其中 503 次正面。贝叶斯更新之后,两个人的后验都会集中在 0.5 附近——相差悬殊的先验,被证据淹没了。
这个收敛性质是贝叶斯方法客观性的来源:不是先验的客观,而是推断过程的客观。
17.5 逻辑与概率:真值的连续化
回到第14章的基本问题:可靠性和完备性。
在经典逻辑里,这两条性质说的是句法(
在概率论里,这两层关系变成了什么?
概率的"可靠性"对应:贝叶斯更新保持相干性(Coherence)。如果你的初始信念满足概率公理,贝叶斯更新后的信念也满足。推断不会制造内部矛盾,不会让你对某件事同时持有正概率和负概率。这是可靠性的概率版本。
概率的"完备性"问题:经典逻辑的不完备性(哥德尔定理)在概率框架里变成什么?这是一个更微妙的问题。概率推断不会遇到"不可证命题"——因为每个命题总有一个概率,即使它是先验给出的 0.5(完全不确定)。但这并不意味着所有真相都可以被概率推断发现——它只是意味着不确定性被明确地量化了,而不是逻辑上被阻塞了。
形式逻辑和概率:不是竞争者,是不同的真值尺度
形式逻辑和概率论经常被当作两种"推理方法"放在一起对比,好像只能选一个。但准确地说,它们生活在不同的层次:形式逻辑处理的是完全确定的信息(某个命题要么在模型里为真,要么为假),概率论处理的是不完全的信息(某个命题可能为真,可能为假,我的信念度是
一个更完整的图景是:形式逻辑是概率论在真值域退化为
17.6 信念更新的连锁:从推断到学习
贝叶斯更新是一个单步操作:拿到一个证据,更新一次信念。但推断通常是连续的——你一个接一个地观察证据,每次都更新。
这个连锁操作的结构,正是机器学习的形式基础。
设想一个参数
最终的后验
这就是贝叶斯学习:学习不是找到"正确的"参数,而是把对参数的信念分布从先验推到后验。参数不是一个点,而是一个分布——你对它有多大把握,分布的宽窄会告诉你。
这个框架和上卷第5章讨论的过拟合形成了有趣的对话:过拟合是因为模型把训练数据的噪声当成了信号,而贝叶斯框架天然地抵抗过拟合——正则化项,对应的正是先验对参数的约束。宽松的先验对应弱正则化,尖锐的先验(集中在特定参数范围的)对应强正则化。奥卡姆剃刀——"更简单的解释优先"——在贝叶斯框架里有了精确的数学表达:复杂模型需要更多数据才能打败先验对简单性的偏好。
最大后验估计(MAP)与最大似然估计(MLE)的关系
在贝叶斯框架里,常用的"点估计"做法是取后验的众数:
如果先验
17.7 概率无法捕捉的东西
到这里,概率论看起来几乎是万能的:它把逻辑推断推广到连续真值,解释了理性信念的必然形式,给出了学习的形式框架。
但它有一个根本的局限,在上卷第6章已经见过它的影子,这里需要用形式语言说清楚。
概率描述的是相关性,不是因果性。
考虑两个变量
导致 (因果: ) 导致 (因果: ) 和 都是某个共同原因 的结果(混淆: )
所有三种情况,可以产生完全相同的联合分布
这不是方法的缺陷,而是数学的结构性限制:关联关系的信息,不包含因果方向的信息。
兔狲教授评
这是整个概率论课程里最容易被跳过、代价最高的一句话。无数篇论文用条件概率回答因果问题。不是因为作者愚蠢,而是因为没有人在一开始就把这道墙画清楚。关联和因果,数学结构不同,不是量的差异,是种类的差异。就这样。
如果你想推断因果——回答"如果我干预
悬而未决
主观性的边界在哪里? Cox 定理证明了推断规则的唯一性,但没有规定先验。不同的先验给不同的智能体,他们观察同样的数据,最终会达成共识吗?在什么条件下会,在什么条件下不会?这是贝叶斯统计里的"先验选择"问题,至今没有普遍答案。
量子概率是贝叶斯概率的推广吗? 量子力学里的概率——玻恩规则——和贝叶斯概率有着相似的数学结构,但量子态的坍缩机制和经典贝叶斯更新有本质差异。是否存在一个统一的框架,把经典概率和量子概率都纳入"理性信念的逻辑"?这是量子贝叶斯主义(QBism)尝试回答的问题,答案还在争论中。
概率是推断的天花板吗? 第17.7节已经揭示了这个问题的答案:不是。概率无法区分相关和因果——
这不是方法的缺陷,而是数学的结构性事实:观测的信息,不包含干预的信息。要回答"如果我改变
思考题
★ 热身
一个医学检测对某种疾病的灵敏度(sensitivity)是 90%,特异度(specificity)是 95%。即:患病者有 90% 概率检测阳性,健康者有 95% 概率检测阴性。该疾病的人群患病率是 1%。
先用直觉估计:某人检测阳性,他实际患病的概率大约是多少?写下你的直觉答案,然后用贝叶斯定理算出准确值。
(提示:
★★ 推导
在上题的设定下:
- 第一次检测阳性后,以第一次的后验作为新的先验,再做第二次独立检测,结果仍为阳性。此时患病概率是多少?
- 如果这个人来自高风险群体,患病率是 10%(而非 1%),同样一次阳性检测后,患病概率是多少?
- 比较第1题(两次阳性,低风险人群)和第2题(一次阳性,高风险人群)的结果。哪种情况给出更高的患病概率?这说明了先验和证据之间什么样的关系?
★★★ 挑战
Cox 定理证明:任何满足三条理性要求的信念度量,在结构上等价于概率。但定理的第一条要求是"信念是可用实数线性序表示的"。
试着构造一个你认为合理的推断场景,其中对某个命题的信念无法被单个实数完整表达——也许需要两个数(比如"至少0.3,至多0.8"),或者需要一个分布。
这样的场景存在吗?如果存在,它说明Cox定理的前提不够普遍,还是说它只是"信念的某种精确化"在这个场景下不适用?用本章的语言尝试区分这两种可能性——不需要解决,只需要把问题说清楚。
