第6章：一致性

编辑：赵志民，王茂霖，詹好

本章前言

本章内容主要探讨学习理论中的一致性（Consistency），研究随着训练数据的增加，通过学习算法所获得的分类器是否逐渐逼近贝叶斯最优分类器。具体内容包括一致性的定义、参数方法下的一致性分析、非参数方法下的一致性分析，以及随机森林一致性分析的案例。

6.1 【证明补充】泛化风险的无偏估计

117页中，公式（6.25）给出了分类器的经验风险 $\hat{R}$ ，并指出其为泛化风险 $R$ 的无偏估计。以下对这一概念进行详细说明。

首先，需要理解经验风险 $\hat{R}$ 和泛化风险 $R$ 的概念。经验风险是基于模型的预测结果与真实结果的比较计算出的量化风险指标。泛化风险则是基于数据-标签联合分布的样本（视为随机变量）的预测结果与真实值的比较的期望值。由于实际情况下数据-标签联合分布通常未知，泛化风险 $R$ 更多是一个理论化的概念。

其次，当我们说 $y$ 是 $x$ 的无偏估计时，意味着 $E [x] = y$ 。根据这一概念，我们可以证明经验风险是泛化风险的无偏估计。

泛化风险定义为：

\begin{aligned} R (f) & = E_{(x, y) \sim D} [I (y f (x) ⩽ 0)] \\ = E_{x \sim D_{X}} [η (x) I (f (x) ⩽ 0) + (1 - η (x)) I (f (x) ⩾ 0)] \end{aligned}

经验风险定义为：

\hat{R} (f) = \frac{1}{m} \sum_{i = 1}^{m} I (y_{i} f (x_{i}) ⩽ 0)

现在我们证明经验风险是泛化风险的无偏估计：

假设所有样本都是从一个未知的样本-标签空间 $D$ 中独立同分布采样的，对经验风险求期望：

\begin{aligned} E (\hat{R} (f)) & = E_{(x_{i}, y_{i}) \sim D} [\frac{1}{m} \sum_{i = 1}^{m} I (y_{i} f (x_{i}) ⩽ 0)] \\ = \frac{1}{m} \sum_{i = 1}^{m} E_{(x_{i}, y_{i}) \sim D} [I (y_{i} f (x_{i}) ⩽ 0)] \\ = \frac{1}{m} \sum_{i = 1}^{m} E_{(x, y) \sim D} [I (y f (x) ⩽ 0)] \\ = \frac{1}{m} \sum_{i = 1}^{m} R (f) \\ = R (f) \end{aligned}

6.2 【证明补充】替代函数一致性

120页的定理6.1给出了替代一致性的充分条件。首先，我们推导了泛化风险与贝叶斯风险之间的差异不等式。根据一致性的定义，我们需要证明，当 $R_{ϕ} ({\hat{f}}_{m}) \to R_{ϕ}^{*}$ 时， $R ({\hat{f}}_{m}) \to R^{*}$ 。

为此，我们进一步构造了关于 $R_{ϕ} ({\hat{f}}_{m}) - R_{ϕ}^{*}$ 的不等式。通过分析两个不等式之间的关联性，最终得出结论：

R ({\hat{f}}_{m}) - R^{*} ⩽ 2 c \sqrt[s]{R_{ϕ} ({\hat{f}}_{m}) - R_{ϕ}^{*}}

因此，当 $R_{ϕ} ({\hat{f}}_{m}) \to R_{ϕ}^{*}$ 时， $R ({\hat{f}}_{m})$ 也会收敛于 $R^{*}$ 。

其中，不等式（6.40）的推导涉及一定的构造技巧，接着通过定理中的条件推导出不等式（6.43）。利用所构造的凸函数的性质，最终完成了这一证明。

6.3 【概念解释】划分机制方法

122页介绍了一种将样本空间划分成多个互不相容区域的方法，然后对各区域内的正例和反例分别计数，并以多数类别作为区域中样本的标记。这种方法本质上不同于参数方法，它并不是在参数空间中进行搜索构建划分超平面，而是在泛函空间上直接进行搜索。一个典型的例子是我们熟悉的决策树模型：

每当构造一个决策树的节点时，相当于在样本空间上进行了一次划分（即划分机制）。这种洞察方式同样适用于解释剪枝操作，即通过减少不必要的节点来简化树结构，同时保持或提高模型的性能。

6.4 【概念解释】依概率成立

124页的定理6.2提到一个定义——依概率成立（Almost Sure）。这是概率论与数理统计中的一个概念，表达如下：

lim_{n \to \infty} P ((D i a m (Ω) - 0) \geq ϵ) = 0

和对于所有 $N > 0$ ：

lim_{n \to \infty} P (N (x) > N) = 1

它意味着当 $n$ 趋于无穷时，几乎处处（Almost Everywhere）的 $D i a m (Ω)$ 都处于 $0$ 的 $ϵ$ 邻域内。而 $N (x)$ 的极限几乎处处为无穷大。依概率成立是一种比极限更弱的情况，即可以忽略概率趋于 $0$ 的情形。

6.5 【证明补充】划分机制一致性

124页的定理6.2给出了划分一致性的充分条件。首先我们定义了 $Ω (x)$ 作为划分区域的条件概率极大似然估计量：

\hat{η} (x) = \sum_{x_{i} \in Ω (x)} \frac{I (y_{i} = + 1)}{N (x)}

再根据划分机制构造分类器（输出函数） $h_{m} (x) = 2 I (\hat{η} (x) ⩾ \frac{1}{2}) - 1$ 。为了证明划分机制的一致性，我们需要证明其输出函数的泛化风险在 $m$ 趋于无穷时，趋于贝叶斯风险。

在此，我们利用了基于条件概率估计的插值法，并借助引理6.2得到了输出函数的泛化风险与贝叶斯风险之间的差值不等式。对于不等式右侧的期望，利用三角不等式进行放缩，可得（6.62）。

根据假设条件：

lim_{m \to \infty} P ((D i a m (Ω) - 0) \geq ϵ) = lim_{m \to \infty} P ((sup_{x, x^{'} \in Ω} ‖ x - x^{'} ‖ - 0) \geq ϵ) = 0

由于 $η (x)$ 在样本空间中具有连续性，因此在任意邻域内我们都可以用 $\hat{η} (x)$ 的期望值来近似 $η (x)$ 。当邻域趋于 0 时，可得：

E [| \bar{η} (x) - η (x) |] \to 0

这是由于 $x^{'}$ 被依概率限制在一个 $ϵ$ 邻域内，且期望可以忽略概率趋于 0 的点，因此 $\bar{η} (x)$ 由于 $η (x)$ 的连续性也被限制在一个 $η (x)$ 的 $ϵ$ 邻域内，从而期望的极限得证。

接下来，针对三角不等式右式的前半部分，将其拆分为 $N (x) = 0$ 和 $N (x) > 0$ 两部分：

\begin{matrix} E [| \hat{η} (x) - \bar{η} (x) | ∣ x, x_{1}, \dots, x_{m}] = E [| \hat{η} (x) - \bar{η} (x) | ∣ N (x) = 0, x, x_{1}, \dots, x_{m}] \\ + E [| \sum_{x_{i} \in Ω (x)} \frac{I (y_{i} = + 1) - \bar{η} (x)}{N (x)} | N (x) > 0, x, x_{1}, \dots, x_{m}] \\ ⩽ P (N (x) = 0 ∣ x, x_{1}, \dots, x_{m}) + E [| \sum_{x_{i} \in Ω (x)} \frac{I (y_{i} = + 1) - \bar{η} (x)}{N (x)} | N (x) > 0, x, x_{1}, \dots, x_{m}] \end{matrix}

然后，对于不等式右侧的第二部分，利用引理6.3的不等式，可以得到：

\begin{array}{l} E [| \sum_{x_{i} \in Ω (x)} \frac{I (y_{i} = + 1) - \bar{η} (x)}{N (x)} | N (x) > 0, x, x_{1}, \dots, x_{m}] \\ ⩽ E [\sqrt{\frac{\bar{η} (x) (1 - \bar{η} (x))}{N (x)}} I (N (x) > 0) ∣ x, x_{1}, \dots, x_{m}] \end{array}

对于此不等式的右侧，再进行放缩。对于任意 $k \geq 3$ ，当 $N (x) ⩽ k$ 时， $\sqrt{\frac{\bar{η} (x) (1 - \bar{η} (x))}{N (x)}} ⩽ \frac{1}{2}$ ，当 $N (x) > k$ 时， $\sqrt{\frac{\bar{η} (x) (1 - \bar{η} (x))}{N (x)}} ⩽ \frac{1}{2 \sqrt{k}}$ ，从而得到不等式右侧的进一步放缩：

\begin{aligned} E [\sqrt{\frac{\bar{η} (x) (1 - \bar{η} (x))}{N (x)}} I (N (x) > 0) ∣ x, x_{1}, \dots, x_{m}] & ⩽ \frac{1}{2} P (N (x) ⩽ k ∣ x, x_{1}, \dots, x_{m}) + \frac{1}{2 \sqrt{k}} P (N (x) > k ∣ x, x_{1}, \dots, x_{m}) \\ ⩽ \frac{1}{2} P (N (x) ⩽ k ∣ x, x_{1}, \dots, x_{m}) + \frac{1}{2 \sqrt{k}} \end{aligned}

结合前面的结果，我们可以得出：

E [| \hat{η} (x) - \bar{η} (x) |] ⩽ \frac{1}{2} P (N (x) ⩽ k) + \frac{1}{2 \sqrt{k}} + P (N (x) = 0)

根据 $N (x) \to \infty$ 依概率成立，当 $m \to \infty$ 时， $P (N (x) ⩽ k) \to 0$ ， $P (N (x) = 0) \to 0$ 。并且当取 $k = \sqrt{N (x)}$ 时， $\frac{1}{2 \sqrt{k}} \to 0$ 依概率成立，从而得出结论：

E [| \hat{η} (x) - \bar{η} (x) |] \to 0

最终证明了其输出函数的泛化风险在 $m$ 趋于无穷时，趋于贝叶斯风险：

R (h_{m}) - R^{*} ⩽ 2 E [| \hat{η} (x) - η (x) |] \to 0

6.6 【证明补充】随机森林的划分一致性

130页中的定理6.5提到了一种简化版本的随机森林，即每次划分都是均匀随机的，并不依赖于训练集的标签。以下对证明直径 $D i a m (Ω (x, Z)) \to 0$ 的步骤进行补充说明。

首先，令 $L_{j}$ 表示区域 $Ω (x, Z)$ 中第 $j$ 个属性的边长，我们可以得到 $D i a m (Ω (x, Z))$ 与 $L_{j}$ 的关系：

\begin{aligned} D i a m (Ω (x, Z)) & = s u p_{x, x^{'} \in Ω} ∥ x - x^{'} ∥ = \sqrt{\sum_{j = 1}^{d} L_{j}^{2}} \end{aligned}

对于 $D i a m (Ω (x, Z))$ 求期望时，我们得到：

E (D i a m (Ω (x, Z))) = E (\sqrt{\sum_{j = 1}^{d} L_{j}^{2}})

令 $L = \sum_{j = 1}^{d} L_{j}^{2}$ ，因为 $\sqrt{L}$ 是关于 $L$ 的凸函数，根据 Jensen 不等式（1.11），我们可以得到：

E (\sqrt{\sum_{j = 1}^{d} L_{j}^{2}}) \leq \sqrt{\sum_{j = 1}^{d} E (L_{j}^{2})}

由于每个属性的边长 $L_{j}$ 在随机决策树构造中都是独立同分布的，因此可以得到：

\sqrt{\sum_{j = 1}^{d} E (L_{j}^{2})} = \sqrt{d E (L_{1}^{2})} = \sqrt{d} E (L_{1})

综合以上各式，我们只需证明当 $k \to \infty$ 时有 $E (L_{1}) \to 0$ ，便可证明 $D i a m (Ω (x, Z)) \to 0$ 。

令随机变量 $U_{i} \sim U (0, 1)$ 表示第 $j$ 个属性在第 $i$ 次划分中的位置，因此 $m a x (U_{i}, 1 - U_{i})$ 表示第 $j$ 个属性在第 $i$ 次划分中的最大长度。令 $K_{j} \sim B (T_{m}, 1 / d)$ 表示第 $j$ 个属性被选用划分的次数。此时，第 $j$ 个属性的边长的 $K_{j}$ 次划分中最大长度的期望值为 $E_{K_{j}} [\prod_{i = 1}^{K_{j}} m a x (U_{i}, 1 - U_{i})]$ ，于是我们可以得到属性边长的期望满足（6.97）。

令 $T_{m}$ 表示区域 $Ω (x, Z)$ 被划分的次数，结合（6.98）及划分点的独立性，我们可以得到：

\begin{aligned} E (L_{j}) & \leq E [E_{K_{j}} [\prod_{i = 1}^{K_{j}} m a x (U_{i}, 1 - U_{i})]] \\ = E [(E [m a x (U_{1}, 1 - U_{1})])^{K_{j}}] \\ = E [(\frac{3}{4})^{K_{j}}] \\ = \sum_{K_{j} = 0}^{T_{m}} P (K_{j}) \cdot (\frac{3}{4})^{K_{j}} \\ = \sum_{K_{j} = 0}^{T_{m}} (\binom{T_{m}}{K_{j}}) \cdot (\frac{1}{d})^{K_{j}} \cdot (1 - \frac{1}{d})^{T_{m} - K_{j}} \cdot (\frac{3}{4})^{K_{j}} \\ = \sum_{K_{j} = 0}^{T_{m}} (\binom{T_{m}}{K_{j}}) \cdot (\frac{3}{4 d})^{K_{j}} \cdot (1 - \frac{1}{d})^{T_{m}} \\ = (1 - \frac{1}{d} + \frac{3}{4 d})^{T_{m}} \\ = (1 - \frac{1}{4 d})^{T_{m}} \end{aligned}

此时，只需证明当 $k \to \infty$ 时 $T_{m} \to \infty$ ，便可证明 $E (L_{j}) \to 0$ 。

每次划分节点都会增加一个新节点，且每次选择节点进行划分的概率均为 $p = 1 / i$ ，其中 $i$ 为当前的节点数目。因此，区域 $Ω (x, Z)$ 在节点数为 $i$ 时被选中进行划分的概率分布满足 $ξ_{i} \sim B e r n o u l l i (p)$ 。此时，划分次数 $ξ_{i}$ 之和表示 $T_{m} = \sum_{i = 1}^{k} ξ_{i}$ 。

由于 $T_{m}$ 的期望为 $E [T_{m}] = \sum_{i = 1}^{k} \frac{1}{i}$ ，根据调和级数的发散性，当 $k \to \infty$ 时 $E [T_{m}] \to \infty$ 。因此， $T_{m} \to \infty$ 必然依概率成立，从而证明了 $D i a m (Ω (x, Z)) \to 0$ 。

第6章：一致性 ​

本章前言 ​

6.1 【证明补充】泛化风险的无偏估计 ​

6.2 【证明补充】替代函数一致性 ​

6.3 【概念解释】划分机制方法 ​

6.4 【概念解释】依概率成立 ​

6.5 【证明补充】划分机制一致性 ​

6.6 【证明补充】随机森林的划分一致性 ​