第1章：预备定理

编辑：赵志民, 李一飞

本章将对书中出现或用到的重要定理进行回顾，并简要解释其证明和应用场景。对于可能不熟悉相关基础知识的读者，建议参考附录中的基础知识部分。通过这些定理的阐述，希望帮助读者更好地理解数学推导的核心原理，并为后续章节的学习打下坚实基础。大数定律（Law of Large Numbers）和集中不等式（Concentration Inequality）密切相关，二者共同揭示了随机变量偏离其期望值的行为。大数定律说明，当样本量足够大时，样本均值会以概率收敛于总体的期望值，反映了长期平均结果的稳定性。而集中不等式（定理 1.8 至 1.18）则更进一步，为随机变量在有限样本量下偏离其期望值的可能性提供了精确的上界。这些不等式描述了随机变量偏离期望值的程度有多大，通过对概率的约束，确保这种偏离发生的概率较小，从而为各种随机现象提供了更细致的控制。集中不等式在大数定律的基础上提供了有力的工具，用于分析有限样本中的波动。

1.1 Jensen 不等式

对于任意凸函数 $f$ ，则有：

f (E [X]) \leq E [f (X)]

成立。

证明

设 $p (x)$ 为 $X$ 的概率密度函数。由 Taylor 展开式及 $f$ 的凸性，可知 $\exists ξ$ 使得：

\begin{aligned} f (x) & = f (E [X]) + f^{'} (E [X]) (x - E [X]) + \frac{f^{''} (ξ)}{2} (x - E [X])^{2} \\ \geq f (E [X]) + f^{'} (E [X]) (x - E [X]) \end{aligned}

对上式取期望，得到：

\begin{aligned} E [f (X)] & = \int p (x) f (x) d x \\ \geq f (E [X]) \int p (x) d x + f^{'} (E [X]) \int p (x) (x - E [X]) d x \\ = f (E [X]) \end{aligned}

因此，原不等式得证。

如果 $f$ 是凹函数，则 Jensen 不等式变为：

f (E [X]) \geq E [f (X)]

这一结论可以通过将上述证明中的 $f$ 替换为 $- f$ 得到。 $◻$

1.2 Hölder 不等式

对于任意 $p, q \in R^{+}$ ，且满足 $\frac{1}{p} + \frac{1}{q} = 1$ ，则有：

E [| X Y |] \leq (E [| X |^{p}])^{\frac{1}{p}} (E [| Y |^{q}])^{\frac{1}{q}}

成立。

证明

设 $f (x)$ 和 $g (y)$ 分别为 $X$ 和 $Y$ 的概率密度函数，定义：

M = \frac{| x |}{(\int_{X} | x |^{p} f (x) d x)^{\frac{1}{p}}}, N = \frac{| y |}{(\int_{Y} | y |^{q} g (y) d y)^{\frac{1}{q}}}

代入 Young 不等式：

M N \leq \frac{1}{p} M^{p} + \frac{1}{q} N^{q}

对该不等式两边同时取期望：

\begin{aligned} \frac{E [| X Y |]}{(E [| X |^{p}])^{\frac{1}{p}} (E [| Y |^{q}])^{\frac{1}{q}}} & = \frac{\int_{X Y} | x y | f (x) g (y) d x d y}{(\int_{X} | x |^{p} f (x) d x)^{\frac{1}{p}} (\int_{Y} | y |^{q} g (y) d y)^{\frac{1}{q}}} \\ \leq \frac{\int_{X} | x |^{p} f (x) d x}{p \int_{X} | x |^{p} f (x) d x} + \frac{\int_{Y} | y |^{q} g (y) d y}{q \int_{Y} | y |^{q} g (y) d y} \\ = \frac{1}{p} + \frac{1}{q} \\ = 1 \end{aligned}

因此，Hölder 不等式得证。 $◻$

1.3 Cauchy-Schwarz 不等式

当 $p = q = 2$ 时，Hölder 不等式退化为 Cauchy-Schwarz 不等式：

E [| X Y |] \leq \sqrt{E [X^{2}] \cdot E [Y^{2}]}

1.4 Lyapunov 不等式

对于任意 $0 < r \leq s$ ，有：

\sqrt[r]{E [| X |^{r}]} \leq \sqrt[s]{E [| X |^{s}]}

证明

由 Hölder 不等式：对任意 $p \geq 1$ ，有：

\begin{aligned} E [| X |^{r}] & = E [| X \cdot 1 |^{r}] \\ \leq (E [| X |^{r p}])^{\frac{1}{p}} \cdot (E [1^{q}])^{\frac{1}{q}} \\ = (E [| X |^{r p}])^{\frac{1}{p}} \end{aligned}

记 $s = r p \geq r$ ，则：

E [| X |^{r}] \leq (E [| X |^{s}])^{\frac{r}{s}}

因此，原不等式得证。 $◻$

1.5 Minkowski 不等式

对于任意 $p \geq 1$ ，有：

\sqrt[p]{E [| X + Y |^{p}]} \leq \sqrt[p]{E [| X |^{p}]} + \sqrt[p]{E [| Y |^{p}]}

证明

由三角不等式和 Hölder 不等式，可得：

\begin{aligned} E [| X + Y |^{p}] & \leq E [(| X | + | Y |) | X + Y |^{p - 1}] \\ = E [| X ∥ X + Y |^{p - 1}] + E [| Y ∥ X + Y |^{p - 1}] \\ \leq (E [| X |^{p}])^{\frac{1}{p}} (E [| X + Y |^{(p - 1) q}])^{\frac{1}{q}} + (E [| Y |^{p}])^{\frac{1}{p}} (E [| X + Y |^{(p - 1) q}])^{\frac{1}{q}} \\ = [(E [| X |^{p}])^{\frac{1}{p}} + (E [| Y |^{p}])^{\frac{1}{p}}] \cdot \frac{E [| X + Y |^{p}]}{(E [| X + Y |^{p}])^{\frac{1}{p}}} \end{aligned}

化简后即得证。 $◻$

1.6 Bhatia-Davis 不等式

对 $X \in [a, b]$ ，有：

V [X] \leq (b - E [X]) (E [X] - a) \leq \frac{(b - a)^{2}}{4}

证明

因为 $a \leq X \leq b$ ，所以有：

\begin{aligned} 0 & \leq E [(b - X) (X - a)] \\ = - E [X^{2}] - a b + (a + b) E [X] \end{aligned}

因此，

\begin{aligned} V [X] & = E [X^{2}] - E [X]^{2} \\ \leq - a b + (a + b) E [X] - E [X^{2}] \\ = (b - E [X]) (E [X] - a) \end{aligned}

考虑 AM-GM 不等式：

x y \leq (\frac{x + y}{2})^{2}

将 $x = b - E [X]$ 和 $y = E [X] - a$ 带入并化简即得证。 $◻$

1.7 Union Bound（Boole's）不等式

对于任意事件 $X$ 和 $Y$ ，有：

P (X \cup Y) \leq P (X) + P (Y)

证明

根据概率的加法公式：

P (X \cup Y) = P (X) + P (Y) - P (X \cap Y) \leq P (X) + P (Y)

由于 $P (X \cap Y) \geq 0$ ，因此不等式得证。 $◻$

1.8 Markov 不等式

若 $X \geq 0$ ，则对于任意 $ε > 0$ ，有：

P (X \geq ε) \leq \frac{E [X]}{ε}

证明

由定义可得：

E [X] = \int_{0}^{\infty} x p (x) d x \geq \int_{ε}^{\infty} x p (x) d x \geq ε \int_{ε}^{\infty} p (x) d x = ε P (X \geq ε)

因此，原不等式得证。 $◻$

1.9 Chebyshev 不等式

对于任意 $ε > 0$ ，有：

P (| X - E [X] | \geq ε) \leq \frac{V [X]}{ε^{2}}

证明

利用 Markov 不等式，得到：

P (| X - E [X] | \geq ε) = P ((X - E [X])^{2} \geq ε^{2}) \leq \frac{E [(X - E [X])^{2}]}{ε^{2}} = \frac{V [X]}{ε^{2}}

因此，Chebyshev 不等式得证。 $◻$

1.10 Cantelli 不等式

对于任意 $ε > 0$ ，有：

P (X - E [X] \geq ε) \leq \frac{V [X]}{V [X] + ε^{2}}

证明

设 $Y = X - E [X]$ ，则对于任意 $λ \geq 0$ ，有：

\begin{aligned} P (X - E [X] \geq ε) & = P (Y \geq ε) \\ = P (Y + λ \geq ε + λ) \\ = P ((Y + λ)^{2} \geq (ε + λ)^{2}) \\ \leq \frac{E [(Y + λ)^{2}]}{(ε + λ)^{2}} = \frac{V [X] + λ^{2}}{(ε + λ)^{2}} \end{aligned}

通过对 $λ$ 求导，得右端在 $λ = \frac{V [X]}{ε}$ 时取得最小值 $\frac{V [X]}{V [X] + ε^{2}}$ ，因此：

P (X - E [X] \geq ε) \leq \frac{V [X]}{V [X] + ε^{2}}

原不等式得证。 $◻$

值得注意的是，Cantelli 不等式是 Chebyshev 不等式的加强版，也称为单边 Chebyshev 不等式。通过类似的构造方法，可以推导出比 Cantelli 不等式更严格的上界。

1.11 Chernoff 界（Chernoff-Cramér 界）

对于任意 $λ > 0, ε > 0$ ，有：

P (X \geq ε) \leq min_{λ > 0} \frac{E [e^{λ X}]}{e^{λ ε}}

对于任意 $λ < 0, ε > 0$ ，有：

P (X \leq ε) \leq min_{λ < 0} \frac{E [e^{λ X}]}{e^{λ ε}}

证明

应用 Markov 不等式，有：

P (X \geq ε) = P (e^{λ X} \geq e^{λ ε}) \leq \frac{E [e^{λ X}]}{e^{λ ε}}, λ > 0, ε > 0

同理，

P (X \leq ε) = P (e^{λ X} \leq e^{λ ε}) \leq \frac{E [e^{λ X}]}{e^{λ ε}}, λ < 0, ε > 0

因此，Chernoff 界得证。 $◻$

基于上述 Chernoff 界的技术，我们可以进一步定义次高斯性：

定义 1 (随机变量的次高斯性)：若一个期望为零的随机变量 $X$ 的矩母函数满足 $\forall λ \in R^{+}$ ：

E [e^{λ X}] \leq \exp (\frac{σ^{2} λ^{2}}{2})

则称 $X$ 服从参数为 $σ$ 的次高斯分布。

实际上，Hoeffding 引理中的随机变量 $X$ 服从 $\frac{(b - a)}{2}$ 的次高斯分布。Hoeffding 引理也是次高斯分布的直接体现。次高斯性还有一系列等价定义，这里不作详细讨论。

次高斯分布有一个直接的性质：假设两个独立的随机变量 $X_{1}, X_{2}$ 都是次高斯分布的，分别服从参数 $σ_{1}, σ_{2}$ ，那么 $X_{1} + X_{2}$ 就是服从参数为 $\sqrt{σ_{1}^{2} + σ_{2}^{2}}$ 的次高斯分布。这个结果的证明可以直接利用定义来完成。

显然，并非所有常见的随机变量都是次高斯的，例如指数分布。为此可以扩大定义：

定义 2 (随机变量的次指数性)：若非负的随机变量 $X$ 的矩母函数满足 $\forall λ \in (0, a)$ ：

E [e^{λ X}] \leq \frac{a}{a - λ}

则称 $X$ 服从参数为 $(V [X], 1 / a)$ 的次指数分布。

同样地，次指数性也有一系列等价定义。一种不直观但更常用的定义如下：存在 $(σ^{2}, b)$ ，使得 $\forall | s | < 1 / b$ ：

E [e^{s (X - E [X])}] \leq \exp (\frac{s^{2} σ^{2}}{2})

常见的次指数分布包括：指数分布，Gamma 分布，以及任何有界随机变量。

类似地，次指数分布对于加法也是封闭的：如果 $X_{1}, X_{2}$ 分别是服从 $(σ_{1}^{2}, b_{1})$ 和 $(σ_{2}^{2}, b_{2})$ 的次指数分布，那么 $X_{1} + X_{2}$ 是服从 $(σ_{1}^{2} + σ_{2}^{2}, max (b_{1}, b_{2}))$ 的次指数分布。在高维统计问题中，次高斯分布和次指数分布的尾端控制能得到一些重要的结论。

1.12 Chernoff 不等式（乘积形式）

对于 $m$ 个独立同分布的随机变量 $x_{i} \in [0, 1], i \in [m]$ ，设 $X = \sum_{i = 1}^{m} X_{i}$ ， $μ > 0$ 且 $r \leq 1$ 。若对所有 $i \leq m$ 都有 $E [x_{i}] \leq μ$ ，则：

\begin{array}{r} P (X \geq (1 + r) μ m) \leq e^{- \frac{r^{2} μ m}{3}}, r \geq 0 \\ P (X \leq (1 - r) μ m) \leq e^{- \frac{r^{2} μ m}{2}}, r \geq 0 \end{array}

证明

应用 Markov 不等式，有：

P (X \geq (1 + r) μ m) = P ((1 + r)^{X} \geq (1 + r)^{(1 + r) μ m}) \leq \frac{E [(1 + r)^{X}]}{(1 + r)^{(1 + r) μ m}}

由于 $x_{i}$ 之间是独立的，可得：

E [(1 + r)^{X}] = \prod_{i = 1}^{m} E [(1 + r)^{x_{i}}] \leq \prod_{i = 1}^{m} E [1 + r x_{i}] \leq \prod_{i = 1}^{m} (1 + r μ) \leq e^{r μ m}

其中，第二步使用了 $\forall x \in [0, 1]$ 都有 $(1 + r)^{x} \leq 1 + r x$ ，第三步使用了 $E [x_{i}] \leq μ$ ，第四步使用了 $\forall x \in [0, 1]$ 都有 $1 + x \leq e^{x}$ 。

又由于 $\forall r \in [0, 1]$ ，有 $\frac{e^{r}}{(1 + r)^{1 + r}} \leq e^{- \frac{r^{2}}{3}}$ ，综上所述：

P (X \geq (1 + r) μ m) \leq (\frac{e^{r}}{(1 + r)^{(1 + r)}})^{μ m} \leq e^{- \frac{r^{2} μ m}{3}}

当我们将 $r$ 替换为 $- r$ 时，根据之前的推导，并利用 $\forall r \in [0, 1]$ 有 $\frac{e^{r}}{(1 - r)^{1 - r}} \leq e^{- \frac{r^{2}}{2}}$ ，可得第二个不等式的证明。 $◻$

1.13 最优 Chernoff 界

如果 $X$ 是一个随机变量，并且 $E [e^{λ (X - E X)}] \leq e^{ϕ (λ)}$ 对于所有 $λ \geq 0$ 成立，则有以下结论：

P (X - E X \geq ε) \leq e^{- ϕ^{*} (ε)}, ε \geq 0

或

P (X - E X \leq (ϕ^{*})^{- 1} (\ln (1 / δ))) \geq 1 - δ, δ \in [0, 1]

其中， $ϕ^{*}$ 是 $ϕ$ 的凸共轭函数，即 $ϕ^{*} (x) = sup_{λ \geq 0} (λ x - ϕ (λ))$ 。

证明

根据 Chernoff 不等式，有：

\begin{aligned} P (X - E X \geq ε) & \leq inf_{λ \geq 0} e^{- λ ε} E [e^{λ (X - E X)}] \\ \leq inf_{λ \geq 0} e^{ϕ (λ) - λ ε} \\ = e^{- sup_{λ \geq 0} (λ ε - ϕ (λ))} \\ = e^{- ϕ^{*} (ε)} \end{aligned}

因此，最优 Chernoff 界得证。 $◻$

1.14 Hoeffding 不等式

设有 $m$ 个独立随机变量 $X_{i} \in [a_{i}, b_{i}]$ ，令 $\bar{X}$ 为 $X_{i}$ 的均值。Hoeffding 不等式表示：

P (\bar{X} - E [\bar{X}] \geq ε) \leq \exp (- \frac{2 m^{2} ε^{2}}{\sum_{i = 1}^{m} (b_{i} - a_{i})^{2}})

证明

首先，我们引入一个引理 (Hoeffding 定理)：

对于 $E [X] = 0$ 且 $X \in [a, b]$ 的随机变量，对于任意 $λ \in R$ ，有：

E [e^{λ X}] \leq \exp (\frac{λ^{2} (b - a)^{2}}{8})

由于 $e^{x}$ 是凸函数，对于任意 $x \in [a, b]$ ，可以写为：

e^{λ x} \leq \frac{b - x}{b - a} e^{λ a} + \frac{x - a}{b - a} e^{λ b}

对上式取期望，得到：

E [e^{λ X}] \leq \frac{b - E [X]}{b - a} e^{λ a} + \frac{E [X] - a}{b - a} e^{λ b} = \frac{b e^{λ a} - a e^{λ b}}{b - a}

记 $θ = - \frac{a}{b - a}$ ， $h = λ (b - a)$ ，则：

\frac{b e^{λ a} - a e^{λ b}}{b - a} = [1 - θ + θ e^{h}] e^{- θ h} = e^{\ln (1 - θ + θ e^{h})} e^{- θ h} = e^{\ln (1 - θ + θ e^{h}) - θ h}

定义函数 $φ (θ, h) = \ln (1 - θ + θ e^{h}) - θ h$ 。注意到 $θ$ 实际上与 $h$ 无关。对 $h$ 求偏导数：

\frac{\partial φ}{\partial h} = \frac{θ e^{h}}{1 - θ + θ e^{h}} - θ

显然有 $\frac{\partial φ}{\partial h} |_{h = 0^{+}} = 0$ 。同理，利用链式法则可得：

\frac{\partial^{2} φ}{\partial h^{2}} = \frac{θ e^{h} (1 - θ + θ e^{h}) - θ^{2} e^{2 h}}{(1 - θ + θ e^{h})^{2}} = \frac{θ e^{h}}{1 - θ + θ e^{h}} (1 - \frac{θ e^{h}}{1 - θ + θ e^{h}}) \leq \frac{1}{4}

根据泰勒展开式，可以得到：

φ (θ, h) \leq \frac{h^{2}}{8} = \frac{λ^{2} (b - a)^{2}}{8}

由 Markov 不等式可知，对于任意 $λ > 0$ ：

P (\bar{X} - E [\bar{X}] \geq ε) = P (e^{λ (\bar{X} - E [\bar{X}])} \geq e^{λ ε}) \leq \frac{E [e^{λ (\bar{X} - E [\bar{X}])}]}{e^{λ ε}}

利用随机变量的独立性及 Hoeffding 引理，有：

\frac{E [e^{λ (\bar{X} - E [\bar{X}]})]}{e^{λ ε}} = e^{- λ ε} \prod_{i = 1}^{m} E [e^{λ (X_{i} - E [X_{i}]) / m}] \leq e^{- λ ε} \prod_{i = 1}^{m} \exp (\frac{λ^{2} (b_{i} - a_{i})^{2}}{8 m^{2}})

考虑二次函数 $g (λ) = - λ ε + \frac{λ^{2}}{8 m^{2}} \sum_{i = 1}^{m} (b_{i} - a_{i})^{2}$ ，其最小值为 $- \frac{2 m^{2} ε^{2}}{\sum_{i = 1}^{m} (b_{i} - a_{i})^{2}}$ 。

因此可以得到：

P (\bar{X} - E [\bar{X}] \geq ε) \leq \exp (- \frac{2 m^{2} ε^{2}}{\sum_{i = 1}^{m} (b_{i} - a_{i})^{2}})

$◻$

注意，这里并未要求随机变量同分布，因此Hoeffding 不等式常用来解释集成学习的基本原理。

1.15 McDiarmid 不等式

对于 $m$ 个独立随机变量 $X_{i} \in X$ ，若函数 $f$ 是差有界的，则对于任意 $ε > 0$ ，有：

P (f (X_{1}, \dots, X_{m}) - E [f (X_{1}, \dots, X_{m})] \geq ε) \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}})

证明

构造一个鞅差序列：

D_{j} = E [f (X) ∣ X_{1}, \dots, X_{j}] - E [f (X) ∣ X_{1}, \dots, X_{j - 1}]

容易验证：

f (X) - E [f (X)] = \sum_{i = 1}^{m} D_{i}

由于 $f$ 是差有界的，因此满足 Azuma-Hoeffding 引理。代入后可得：

P (f (X_{1}, \dots, X_{m}) - E [f (X_{1}, \dots, X_{m})] \geq ε) \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}})

原不等式得证。 $◻$

1.16 Bennett 不等式

对于 $m$ 个独立随机变量 $X_{i}$ ，令 $\bar{X}$ 为 $X_{i}$ 的均值，若存在 $b > 0$ ，使得 $| X_{i} - E [X_{i}] | < b$ ，则有：

P (\bar{X} - E [\bar{X}] \geq ε) \leq \exp (- \frac{m ε^{2}}{2 (\sum_{i = 1}^{m} V [X_{i}] / m + b ε / 3)})

证明

首先，Bennett 不等式是 Hoeffding 不等式的一个加强版，对于独立随机变量的条件可以放宽为弱独立条件，结论仍然成立。

这些 Bernstein 类的集中不等式更多地反映了在非渐近观点下的大数定律表现，即它们刻画了样本均值如何集中在总体均值附近。

如果将样本均值看作是样本（数据点的函数），即令 $f (X_{1}, \dots, X_{m}) = \sum_{i = 1}^{m} X_{i} / m$ ，那么 Bernstein 类不等式刻画了如下的概率：

P (f (X_{1}, \dots, X_{m}) - E [f (X_{1}, \dots, X_{m})] \geq ε)

为了在某些泛函上也具有类似 Bernstein 类的集中不等式形式，显然 $f$ 需要满足某些特定性质。差有界性是一种常见的约束条件。

定义 3: 差有界性

函数 $f : X^{m} \to R$ 满足对于每个 $i$ ，存在常数 $c_{i} < \infty$ ，使得：

| f (x_{1}, \dots, x_{i}, \dots, x_{m}) - f (x_{1}, \dots, x_{i}^{'}, \dots, x_{m}) | \leq c_{i}

则称 $f$ 是差有界的。

为了证明这些结果，需要引入一些新的数学工具。

定义 4: 离散鞅

若离散随机变量序列（随机过程） $Z_{m}$ 满足：

$E [| Z_{i} |] < \infty$
$E [Z_{m + 1} ∣ Z_{1}, \dots, Z_{m}] = E [Z_{m + 1} ∣ F_{m}] = Z_{m}$

则称序列 $Z_{i}$ 为离散鞅。

引理 2: Azuma-Hoeffding 定理

对于鞅 $Z_{i}$ ，若 $E [Z_{i}] = μ, Z_{1} = μ_{\circ}$ ，则构造鞅差序列 $X_{i} = Z_{i} - Z_{i - 1}$ ，且 $| X_{i} | \leq c_{i}$ ，则对于任意 $ε > 0$ ，有：

P (Z_{m} - μ \geq ε) = P (\sum_{i = 1}^{m} X_{i} \geq ε) \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}})

证明

首先，若 $E [X ∣ Y] = 0$ ，则有 $\forall λ > 0$ ：

E [e^{λ X} ∣ Y] \leq E [e^{λ X}]

因此，由恒等式 $E [E [X ∣ Y]] = E [X]$ 及 Chernoff 一般性技巧，对于任意 $λ > 0$ ：

\begin{aligned} P (Z_{m} - μ \geq ε) & \geq e^{- λ ε} E [e^{λ (Z_{m} - μ)}] \\ = e^{- λ ε} E [E [e^{λ (Z_{m} - μ)} ∣ F_{m - 1}]] \\ = e^{- λ ε} E [e^{λ (Z_{m - 1} - μ)} E [e^{λ (Z_{m} - Z_{m - 1})} ∣ F_{m - 1}]] \end{aligned}

由于 ${X_{i}}$ 是鞅差序列，因此 $E [X_{m} ∣ F_{m - 1}] = 0, E [X_{i}] = 0$ 。再结合不等式 $E [e^{λ X} ∣ Y] \leq E [e^{λ X}]$ 及 Hoeffding 引理，有：

\begin{aligned} P (Z_{m} - μ \geq ε) & \leq e^{- λ ε} E [e^{λ (Z_{m - 1} - μ)}] E [e^{λ X_{n}}] \\ \leq e^{- λ ε} E [e^{λ (Z_{m - 1} - μ)}] \exp (\frac{λ^{2} c_{m}^{2}}{2}) \end{aligned}

迭代上不等式可得：

P (Z_{m} - μ \geq ε) \leq e^{- λ ε} \prod_{i = 1}^{m} \exp (\frac{λ^{2} c_{i}^{2}}{2})

当 $λ = \frac{ε}{\sum_{i = 1}^{m} c_{i}^{2}}$ 时，上式右端取得极小值：

P (Z_{m} - μ \geq ε) \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}})

原不等式得证。 $◻$

1.17 Bernstein 不等式

考虑 $m$ 个独立同分布的随机变量 $X_{i}, i \in [m]$ 。令 $\bar{X} = \frac{\sum_{i = 1}^{m} X_{i}}{m}$ 。若存在常数 $b > 0$ ，使得对所有 $k \geq 2$ ，第 $k$ 阶矩满足 $E [| X_{i} |^{k}] \leq \frac{k! b^{k - 2}}{2} V [X_{1}]$ ，则该不等式成立：

P (\bar{X} \geq E [\bar{X}] + ϵ) \leq \exp (\frac{- m ϵ^{2}}{2 V [X_{1}] + 2 b ϵ})

证明

首先，我们需要将矩条件（Moment Condition）转换为亚指数条件（Sub-exponential Condition），以便进一步推导，即：

矩条件： 对于随机变量 $X$ ，其 $k$ -阶中心矩满足如下条件：
$E [| X - E [X] |^{k}] \leq \frac{k! b^{k - 2}}{2} V [X], \forall k \geq 2$
其中：
1. 中心矩：随机变量 $X$ 的 $k$ 阶中心矩为 $E [| X - E [X] |^{k}]$ ，表示 $X$ 偏离其期望值的 $k$ 次幂的期望值。中心矩用于衡量随机变量的分布形状，尤其是描述其尾部行为。当 $k = 2$ 时，中心矩即为随机变量的方差。
2. $\frac{k!}{2}$ 是阶乘项，随着 $k$ 增大迅速增长。
3. $b^{k - 2}$ 是一个修正因子，其中 $b$ 为常数，用以控制高阶矩的增长速率。
4. $V [X]$ 表示随机变量 $X$ 的方差，它作为标准的离散度量来标定中心矩的大小。
亚指数条件：给定随机变量 $X$ ，其均值为 $E [X]$ ，方差为 $V [X]$ ，则其偏离均值的随机变量 $X - E [X]$ 的矩母函数（MGF）满足如下不等式：
$E [e^{λ (X - E [X])}] \leq \exp (\frac{V [X] λ^{2}}{2 (1 - b λ)}), \forall λ \in [0, \frac{1}{b})$
其中：
1. 矩母函数：这是一个重要的工具，用于控制随机变量的尾部概率。矩母函数的形式是 $E [e^{λ X}]$ ，它通过调整 $λ$ 来捕捉不同程度的偏差行为。
2. 方差主导项：不等式右边的表达式包含一个方差主导的项 $\frac{V [X] λ^{2}}{2}$ ，类似于高斯分布的尾部特性，表明当 $λ$ 较小时， $X$ 的偏差行为主要由其方差控制，尾部概率呈现指数衰减。
3. 修正项 $(1 - b λ)$ ：该项显示，当 $λ$ 接近 $\frac{1}{b}$ 时，尾部偏差的控制变得更加复杂。这种形式通常出现在亚指数条件中，意味着随机变量的尾部行为介于高斯分布和重尾分布之间，尾部衰减较慢但仍比重尾分布快。

步骤 1：中心化随机变量

设：

Y = X - E [X]

我们的目标是对 $Y$ 的矩母函数（MGF）进行上界：

E [e^{λ Y}]

步骤 2：展开指数矩

将 MGF 展开为幂级数（Taylor展开）：

E [e^{λ Y}] = E [\sum_{k = 0}^{\infty} \frac{(λ Y)^{k}}{k!}] = \sum_{k = 0}^{\infty} \frac{λ^{k}}{k!} E [Y^{k}]

由于 $E [Y] = 0$ ，故 $k = 1$ 项消失：

E [e^{λ Y}] = 1 + \sum_{k = 2}^{\infty} \frac{λ^{k}}{k!} E [Y^{k}]

步骤 3：使用矩条件对中心矩进行上界

根据矩条件：

E [| Y |^{k}] \leq \frac{k! b^{k - 2}}{2} V [X]

因此：

| E [Y^{k}] | \leq E [| Y |^{k}] \leq \frac{k! b^{k - 2}}{2} V [X]

步骤 4：代入 MGF 展开式

将上界代入 MGF 展开式：

E [e^{λ Y}] \leq 1 + \sum_{k = 2}^{\infty} \frac{λ^{k}}{k!} \cdot \frac{k! b^{k - 2}}{2} V [X] = 1 + \frac{V [X]}{2} \sum_{k = 2}^{\infty} (b λ)^{k - 2} λ^{2}

通过令 $j = k - 2$ 进行简化：

E [e^{λ Y}] \leq 1 + \frac{V [X] λ^{2}}{2} \sum_{j = 0}^{\infty} (b λ)^{j}

步骤 5：求解几何级数的和

当 $b λ < 1$ 时，几何级数收敛：

\sum_{j = 0}^{\infty} (b λ)^{j} = \frac{1}{1 - b λ}

因此：

E [e^{λ Y}] \leq 1 + \frac{V [X] λ^{2}}{2 (1 - b λ)}

步骤 6：应用指数不等式

使用不等式 $1 + x \leq e^{x}$ 对所有实数 $x$ 成立：

E [e^{λ Y}] \leq \exp (\frac{V [X] λ^{2}}{2 (1 - b λ)})

这与亚指数条件相符：

E [e^{λ Y}] \leq \exp (\frac{V [X] λ^{2}}{2 (1 - b λ)}), \forall λ \in [0, \frac{1}{b})

接下来我们完成在给定矩条件下的Bernstein 不等式的证明，即：

陈述：

给定 $m$ 个独立同分布的随机变量 $X_{i}, i \in [m]$ ，令 $\bar{X} = \frac{1}{m} \sum_{i = 1}^{m} X_{i}$ 。若存在常数 $b > 0$ ，使得对所有 $k \geq 2$ ，

E [| X_{i} - E [X_{i}] |^{k}] \leq \frac{k! b^{k - 2}}{2} V [X_{1}],

则对于任意 $ϵ > 0$ ，

P (\bar{X} \geq E [\bar{X}] + ϵ) \leq \exp (\frac{- m ϵ^{2}}{2 V [X_{1}] + 2 b ϵ})

步骤 1：定义单侧 Bernstein 条件

首先，回顾对于参数 $b > 0$ 的单侧 Bernstein 条件：

E [e^{λ (Y)}] \leq \exp (\frac{V [Y] λ^{2} / 2}{1 - b λ}), \forall λ \in [0, \frac{1}{b})

其中 $Y = X - E [X]$ 。

根据矩条件，我们已经证明 $Y$ 满足亚指数条件：

E [e^{λ Y}] \leq \exp (\frac{V [Y] λ^{2}}{2 (1 - b λ)}), \forall λ \in [0, \frac{1}{b})

因此， $Y$ 满足单侧 Bernstein 条件，且 $V [Y] = V [X]$ 。

步骤 2：应用 Chernoff 界

考虑 $m$ 个独立同分布随机变量 $Y_{i} = X_{i} - E [X_{i}]$ 的和：

S_{m} = \sum_{i = 1}^{m} Y_{i} = m (\bar{X} - E [\bar{X}])

我们的目标是对概率 $P (S_{m} \geq m ϵ)$ 进行上界，这等价于 $P (\bar{X} \geq E [\bar{X}] + ϵ)$ 。

使用Chernoff 界：

P (S_{m} \geq m ϵ) \leq inf_{λ > 0} \exp (- λ m ϵ) E [e^{λ S_{m}}]

步骤 3：对和的矩母函数进行上界

由于 $Y_{i}$ 是独立的：

E [e^{λ S_{m}}] = \prod_{i = 1}^{m} E [e^{λ Y_{i}}] \leq {[\exp (\frac{V [Y_{i}] λ^{2}}{2 (1 - b λ)})]}^{m} = \exp (\frac{m V [Y] λ^{2}}{2 (1 - b λ)})

因此：

P (S_{m} \geq m ϵ) \leq inf_{λ > 0} \exp (- λ m ϵ + \frac{m V [Y] λ^{2}}{2 (1 - b λ)})

步骤 4：对 $λ$ 进行优化

为了找到最紧的界，我们需要对 $λ$ 进行优化。最优的 $λ$ 是使指数最小的值：

- λ m ϵ + \frac{m V [Y] λ^{2}}{2 (1 - b λ)}

对 $λ$ 求导并令其为零：

- ϵ + \frac{V [Y] λ}{1 - b λ} + \frac{V [Y] λ^{2} b}{2 (1 - b λ)^{2}} = 0

然而，直接求解该方程较为复杂。我们可以选择：

λ = \frac{ϵ}{V [Y] + b ϵ}

此时 $λ$ 满足 $[0, \frac{1}{b})$ 的范围，因为：

λ b = \frac{b ϵ}{V [Y] + b ϵ} < 1

步骤 5：将最优的 $λ$ 代入界中

将 $λ = \frac{ϵ}{V [Y] + b ϵ}$ 代入指数中：

- λ m ϵ + \frac{m V [Y] λ^{2}}{2 (1 - b λ)} = - \frac{m ϵ^{2}}{V [Y] + b ϵ} + \frac{m V [Y] {(\frac{ϵ}{V [Y] + b ϵ})}^{2}}{2 (1 - \frac{b ϵ}{V [Y] + b ϵ})}

在第二项中简化分母：

1 - b λ = 1 - \frac{b ϵ}{V [Y] + b ϵ} = \frac{V [Y]}{V [Y] + b ϵ}

现在，代入回去：

- \frac{m ϵ^{2}}{V [Y] + b ϵ} + \frac{m ϵ^{2}}{2 (V [Y] + b ϵ)} = - \frac{m ϵ^{2}}{2 (V [Y] + b ϵ)}

因此：

P (S_{m} \geq m ϵ) \leq \exp (- \frac{m ϵ^{2}}{2 (V [Y] + b ϵ)})

步骤 6：回到样本均值

回忆：

S_{m} = m (\bar{X} - E [\bar{X}])

因此：

P (\bar{X} - E [\bar{X}] \geq ϵ) = P (S_{m} \geq m ϵ) \leq \exp (- \frac{m ϵ^{2}}{2 (V [Y] + b ϵ)})

由于 $V [Y] = V [X]$ ，我们得到：

P (\bar{X} \geq E [\bar{X}] + ϵ) \leq \exp (- \frac{m ϵ^{2}}{2 (V [X] + b ϵ)})

$◻$

1.18 Azuma–Hoeffding（Azuma）不等式

对于均值为 $Z_{0} = μ$ 的鞅差序列 ${Z_{m}, m \geq 1}$ ，若 $| Z_{i} - Z_{i - 1} | \leq c_{i}$ ，其中 $c_{i} > 0$ 为已知常数，则对于任意 $ε > 0$ ，有：

\begin{aligned} P (Z_{m} - μ \geq ε) & \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}}) \\ P (Z_{m} - μ \leq - ε) & \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}}) \end{aligned}

证明

构造指数鞅
考虑参数 $s > 0$ ，构造如下的指数鞅：
$M_{m} = \exp (s (Z_{m} - μ) - \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2})$
我们需要证明 ${M_{m}}_{m \geq 0}$ 是一个超鞅。
验证鞅性质
对于任意 $m \geq 1$ ，有
$E [M_{m} ∣ F_{m - 1}] = E [\exp (s (Z_{m} - Z_{m - 1})) ∣ F_{m - 1}] \cdot \exp (s (Z_{m - 1} - μ) - \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2})$
由于 $| Z_{m} - Z_{m - 1} | \leq c_{m}$ ，并且 $E [Z_{m} - Z_{m - 1} ∣ F_{m - 1}] = 0$ （鞅性质），可以应用 Hoeffding 引理得到：
$E [\exp (s (Z_{m} - Z_{m - 1})) ∣ F_{m - 1}] \leq \exp (s E [Z_{m} - Z_{m - 1} ∣ F_{m - 1}] + \frac{s^{2} (c_{m} - (- c_{m}))^{2}}{8}) = \exp (\frac{s^{2} c_{m}^{2}}{2})$
因此，
$E [M_{m} ∣ F_{m - 1}] \leq \exp (\frac{s^{2} c_{m}^{2}}{2}) \cdot \exp (s (Z_{m - 1} - μ) - \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2}) = M_{m - 1}$
这表明 ${M_{m}}$ 是一个超鞅。
应用鞅不等式
由于 ${M_{m}}$ 是一个超鞅，且 $M_{0} = \exp (0) = 1$ ，根据超鞅的性质，有
$E [M_{m}] \leq M_{0} = 1$
对于事件 ${Z_{m} - μ \geq ε}$ ，有
$M_{m} = \exp (s (Z_{m} - μ) - \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2}) \geq \exp (s ε - \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2})$
我们令 $a = \exp (s ε - \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2})$ ，由于 ${Z_{m} - μ \geq ε}$ 蕴含了 ${M_{m} \geq a}$ ，所以：
$P (Z_{m} - μ \geq ε) \leq P (M_{m} \geq a)$
结合已知的 $E [M_{m}] \leq 1$ ，应用 Markov 不等式可得：
$P (M_{m} \geq a) \leq \frac{1}{a} = \exp (- s ε + \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2})$
因此，我们得到：
$P (Z_{m} - μ \geq ε) \leq \exp (- s ε + \frac{s^{2}}{2} \sum_{i = 1}^{m} c_{i}^{2})$
优化参数 $s$
为了得到最优的上界，选择 $s$ 使得表达式 $- s ε + \frac{s^{2}}{2} \sum c_{i}^{2}$ 最小化。对 $s$ 求导并取零：
$- ε + s \sum_{i = 1}^{m} c_{i}^{2} = 0 \Rightarrow s = \frac{ε}{\sum_{i = 1}^{m} c_{i}^{2}}$
代入得：
$P (Z_{m} - μ \geq ε) \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}})$
这即是 Azuma 不等式的上侧不等式。
下侧不等式的证明
对于下侧不等式，可以类似地考虑 $- Z_{m}$ 作为鞅，应用相同的方法得到：
$P (Z_{m} - μ \leq - ε) \leq \exp (- \frac{ε^{2}}{2 \sum_{i = 1}^{m} c_{i}^{2}})$
因此，Azuma 不等式得证。 $◻$

1.19 Slud 不等式

若 $X \sim B (m, p)$ ，则有：

P (\frac{X}{m} \geq \frac{1}{2}) \geq \frac{1}{2} [1 - \sqrt{1 - \exp (- \frac{m ε^{2}}{1 - ε^{2}})}]

其中 $p = \frac{1 - ε}{2}$ 。

证明

二项随机变量 $X$ 表示在 $m$ 次独立伯努利试验中成功的次数，成功概率为 $p$ 。对于大的 $m$ ，二项分布 $B (m, p)$ 可以近似为均值 $μ = m p$ 和方差 $σ^{2} = m p (1 - p)$ 的正态分布：

\begin{aligned} μ & = \frac{m (1 - ε)}{2} \\ σ^{2} & = \frac{m (1 - ε^{2})}{4} \end{aligned}

令 $Z = \frac{X - μ}{σ}$ ，代入 $μ$ 和 $σ$ ，有：

P [\frac{X}{m} \geq \frac{1}{2}] = P [Z \geq \frac{\frac{m}{2} - μ}{σ}] = P [Z \geq \frac{ε \sqrt{m}}{\sqrt{1 - ε^{2}}}]

根据正态分布不等式（定理 21），有：

P [Z \geq x] \geq \frac{1}{2} [1 - \sqrt{1 - \exp (- \frac{2 x^{2}}{π})}] \geq \frac{1}{2} [1 - \sqrt{1 - \exp (- x^{2})}]

代入可得：

P [Z \geq \frac{ε \sqrt{m}}{\sqrt{1 - ε^{2}}}] \geq \frac{1}{2} [1 - \sqrt{1 - \exp (- \frac{m ε^{2}}{1 - ε^{2}})}]

$◻$

1.20 上界不等式之加性公式

若 $sup (f)$ 和 $sup (g)$ 分别为函数 $f$ 和 $g$ 的上界，则有：

sup (f + g) \leq sup (f) + sup (g)

证明

假设 $f, g$ 分别有相同的定义域 $D_{f}, D_{g}$ 。根据上确界的定义，对于每一个 $x \in D_{f} \cap D_{g}$ ，我们有

g (x) \leq sup_{y \in D_{g}} g (y),

从而

f (x) + g (x) \leq f (x) + sup_{y \in D_{g}} g (y) .

因为这对于每一个 $x \in D_{f} \cap D_{g}$ 都成立，我们可以在不等式的两边取上确界，得到：

sup_{x \in D_{f} \cap D_{g}} (f (x) + g (x)) \leq sup_{x \in D_{f} \cap D_{g}} f (x) + sup_{y \in D_{g}} g (y) \leq sup_{z \in D_{f}} f (z) + sup_{y \in D_{g}} g (y) .

这里我们使用了 $sup_{x \in D_{f} \cap D_{g}} f (x) \leq sup_{z \in D_{f}} f (z)$ ，因为 $D_{f} \cap D_{g} \subset D_{f}$ 。 $◻$

值得注意的是，该不等式在（4.33）中利用过两次，且原推导并没有用到 Jensen 不等式的任何性质。

另外，加性公式有几个常见的变形，例如：

sup (f - g) - sup (f - k) \leq sup (k - g)

该不等式在（4.29）中出现过。

1.21 正态分布不等式

若 $X$ 是一个服从标准正态分布的随机变量，那么对于任意 $u \geq 0$ ，有：

P [X \leq u] \leq \frac{1}{2} \sqrt{1 - e^{- \frac{2}{π} u^{2}}}

证明

令 $G (u) = P [X \leq u]$ ，则有：

2 G (u) = \int_{- u}^{u} (2 π)^{- 1 / 2} e^{- x^{2} / 2} d x = \int_{- u}^{u} (2 π)^{- 1 / 2} e^{- y^{2} / 2} d y

因此：

2 π [2 G (u)]^{2} = \int_{- u}^{u} \int_{- u}^{u} e^{- (x^{2} + y^{2}) / 2} d x d y

让我们考虑更一般的积分形式：

2 π [2 G (u)]^{2} = \iint_{R} e^{- (x^{2} + y^{2}) / 2} d x d y

此时 $R$ 为任意面积为 $4 u^{2}$ 的区域。通过反证法可以证明，只有当 $R$ 为以原点为中心的圆形区域 $R_{0}$ 时，积分值最大：

R_{0} = {(x, y) : π (x^{2} + y^{2}) \leq 4 u^{2}}

此时，有：

\begin{aligned} 2 π [2 G (u)]^{2} & \leq \iint_{R_{0}} e^{- (x^{2} + y^{2}) / 2} d x d y \\ = \int_{0}^{2 π} \int_{0}^{2 u π^{- 1 / 2}} e^{- r^{2} / 2} r d r d φ \\ = 2 π (1 - e^{- 2 u^{2} / π}) \end{aligned}

因此，有：

G (u) = P [X \leq u] \leq \frac{1}{2} \sqrt{1 - e^{- \frac{2}{π} u^{2}}}

进一步，我们可以得到：

P [X \geq u] \geq \frac{1}{2} (1 - \sqrt{1 - e^{- \frac{2}{π} u^{2}}})

$◻$

1.22 AM-GM 不等式

算术平均数和几何平均数的不等式，简称 AM-GM 不等式。该不等式指出非负实数序列的算术平均数大于等于该序列的几何平均数，当且仅当序列中的每个数相同时，等号成立。形式上，对于非负实数序列 ${x_{n}}$ ，其算术平均值定义为：

A_{n} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

其几何平均值定义为：

G_{n} = \sqrt[n]{\prod_{i = 1}^{n} x_{i}}

则 AM-GM 不等式成立：

A_{n} \geq G_{n}

证明

我们可以通过 Jensen 不等式来证明 AM-GM 不等式。首先，我们考虑函数 $f (x) = - \ln x$ ，该函数是凸函数，因此有：

\frac{1}{n} \sum_{i = 1}^{n} - \ln x_{i} \geq - \ln (\frac{1}{n} \sum_{i = 1}^{n} x_{i})

即：

\begin{aligned} \ln (\frac{1}{n} \sum_{i = 1}^{n} x_{i}) & \geq \frac{1}{n} \sum_{i = 1}^{n} \ln x_{i} = \ln (\sqrt[n]{\prod_{i = 1}^{n} x_{i}}) \\ \Rightarrow \frac{1}{n} \sum_{i = 1}^{n} x_{i} & \geq \sqrt[n]{\prod_{i = 1}^{n} x_{i}} \end{aligned}

当取 $x_{1} = x_{2} = \dots = x_{n}$ 时，等号成立。特别地，当 $n = 2$ 时，我们有：

\frac{x_{1} + x_{2}}{2} \geq \sqrt{x_{1} x_{2}}

$◻$

1.23 Young 不等式

对于任意 $a, b \geq 0$ 且 $p, q > 1$ ，若 $\frac{1}{p} + \frac{1}{q} = 1$ ，则有：

a b \leq \frac{a^{p}}{p} + \frac{b^{q}}{q}

当且仅当 $a^{p} = b^{q}$ 时，等号成立。

证明

我们可以通过 Jensen 不等式来证明 Young 不等式。首先，当 $a b = 0$ 时，该不等式显然成立。当 $a, b > 0$ 时，我们令 $t = 1 / p, 1 - t = 1 / q$ ，根据 $\ln (x)$ 的凹性，我们有：

\begin{aligned} \ln (t a^{p} + (1 - t) b^{q}) & \geq t \ln (a^{p}) + (1 - t) \ln (b^{q}) \\ = \ln (a) + \ln (b) \\ = \ln (a b) \end{aligned}

当且仅当 $a^{p} = b^{q}$ 时，等号成立。 $◻$

1.24 Bayes 定理

贝叶斯定理是概率论中的一个重要定理，它描述了在已知某些条件下更新事件概率的数学方法。贝叶斯定理的公式为：

P (A | B) = \frac{P (B | A) \cdot P (A)}{P (B)}

其中：

$P (A | B)$ 是在事件 B 发生的情况下事件 A 发生的后验概率。
$P (B | A)$ 是在事件 A 发生的情况下事件 B 发生的似然函数。
$P (A)$ 是事件 A 的先验概率。
$P (B)$ 是事件 B 的边缘概率。

证明

根据条件概率的定义，事件 A 在事件 B 发生下的条件概率 $P (A | B)$ 表示为：

P (A | B) = \frac{P (A \cap B)}{P (B)}

同样地，事件 B 在事件 A 发生下的条件概率 $P (B | A)$ 表示为：

P (B | A) = \frac{P (A \cap B)}{P (A)}

通过这两个公式可以得到联合概率 $P (A \cap B)$ 的两种表示方式：

P (A \cap B) = P (A | B) \cdot P (B)

以及：

P (A \cap B) = P (B | A) \cdot P (A)

由于联合概率的性质，我们可以将上述两个等式等同：

P (A | B) \cdot P (B) = P (B | A) \cdot P (A)

将上述等式两边同时除以 $P (B)$ ，得到贝叶斯定理：

P (A | B) = \frac{P (B | A) \cdot P (A)}{P (B)}

$◻$

通过先验和后验的更新过程，贝叶斯统计提供了一种动态的、不断修正认知的不确定性量化方法。

1.25 广义二项式定理

广义二项式定理（Generalized Binomial Theorem）是二项式定理的扩展：

(x + y)^{r} = \sum_{k = 0}^{\infty} (\binom{r}{k}) x^{r - k} y^{k}, | x | < | y |, k \in N, r \in R

其中我们令 $(\binom{r}{k}) := \frac{(r)_{k}}{k!}$ ， $(r)_{k} = r (r - 1) \dots (r - k + 1)$ 为递降阶乘（falling factorial）。

证明

首先代入定义，易证：

(r - k) (\binom{r}{k}) + (r - (k - 1)) (\binom{r}{k - 1}) = r (\binom{r}{k})

我们从特殊情况 $y = 1$ 开始。首先我们证明只要 $| x | < 1$ ，后者级数就会收敛。

通过使用幂级数收敛半径的商式来证明这一点，由于绝对值的连续性使我们可以先在绝对值内部计算极限，可得：

lim_{k \to \infty} \frac{| a_{k} |}{| a_{k + 1} |} = lim_{k \to \infty} | \frac{k + 1}{r - k} | = | - 1 | = 1

因此我们有一个为 1 的收敛半径。这种收敛使我们能够在 $| x | < 1$ 的收敛区域内应用逐项求导，得到：

\frac{d}{d x} \sum_{k = 0}^{\infty} (\binom{r}{k}) x^{k} = \sum_{k = 1}^{\infty} (r - (k - 1)) (\binom{r}{k - 1}) x^{k - 1}

如果我们将我们正在考虑的级数定义的函数记为 $g (x)$ ，我们得到：

\begin{aligned} (1 + x) \frac{d}{d x} g (x) & = \sum_{k = 1}^{\infty} (r - (k - 1)) (\binom{r}{k - 1}) x^{k - 1} + \sum_{k = 1}^{\infty} (r - (k - 1)) (\binom{r}{k - 1}) x^{k} \\ = r + \sum_{k = 1}^{\infty} ((r - k) (\binom{r}{k}) + (r - (k - 1)) (\binom{r}{k - 1})) x^{k} \\ = r + r \sum_{k = 1}^{\infty} (\binom{r}{k}) x^{k} \\ = r g (x), \end{aligned}

上式的推导使用了前述引理。

现在定义 $f (x) = (1 + x)^{r}$ ，我们通过通常的求导规则得到：

\frac{d}{d x} (\frac{g (x)}{f (x)}) = \frac{g^{'} (x) f (x) - f^{'} (x) g (x)}{f (x)^{2}} = \frac{r \frac{g (x)}{x + 1} (1 + x)^{r} - r g (x) (1 + x)^{r - 1}}{f (x)^{2}} = 0

$| x | < 1$ 意味着 $f (x) \neq 0$ ，因此 $g / f$ 为常数。又 $f (0) = g (0) = 1$ 可得 $f (x) = g (x)$ 。

对于一般的 $x, y \in R$ 且 $| x | < | y |$ ，我们有：

\frac{(x + y)^{r}}{y^{r}} = (\frac{x}{y} + 1)^{r} = \sum_{k = 0}^{\infty} (\binom{r}{k}) (\frac{x}{y})^{k};

收敛性由假设 $| x / y | < 1$ 保证。为了得到原定理的形式，我们只需乘以 $y^{r}$ 即可。 $◻$

1.26 Stirling 公式

Stirling 公式是用于近似计算阶乘的一种公式，即使在 $n$ 很小时也有很高的精度。Stirling 公式的一种形式为：

n! = \sqrt{2 π} n^{n + 1 / 2} e^{- n} e^{r_{n}}

其中， $\frac{1}{12 n + 1} < r_{n} < \frac{1}{12 n}$ 。

证明

我们令：

S_{n} = \ln (n!) = \sum_{p = 1}^{n - 1} \ln (p + 1)

且

\ln (p + 1) = A_{p} + b_{p} - ε_{p}

其中：

\begin{aligned} A_{p} & = \int_{p}^{p + 1} \ln x d x \\ b_{p} & = \frac{1}{2} [\ln (p + 1) - \ln (p)] \\ ε_{p} & = \int_{p}^{p + 1} \ln x d x - \frac{1}{2} [\ln (p + 1) + \ln (p)] \end{aligned}

此时：

S_{n} = \sum_{p = 1}^{n - 1} (A_{p} + b_{p} - ε_{p}) = \int_{1}^{n} \ln x d x + \frac{1}{2} \ln n - \sum_{p = 1}^{n - 1} ε_{p}

易证 $\int \ln x d x = x \ln x - x + C, C \in R$ ，故：

S_{n} = (n + 1 / 2) \ln n - n + 1 - \sum_{p = 1}^{n - 1} ε_{p}

此时：

ε_{p} = \frac{2 p + 1}{2} \ln (\frac{p + 1}{p}) - 1

接下来我们对 $\ln (\frac{p + 1}{p})$ 进行级数展开，根据广义二项式定理，即：

令 $a = - 1, t = \frac{1}{p}, t \in (- 1, 1)$ ，则有：

\frac{1}{1 + t} = 1 - t + t^{2} - t^{3} + t^{4} - \dots

对上式两边同时进行积分，我们有：

\ln (1 + t) = t - \frac{1}{2} t^{2} + \frac{1}{3} t^{3} - \frac{1}{4} t^{4} + \dots

如果我们令 $- t$ 来代替 $t$ ，则有：

\ln \frac{1}{1 - t} = t + \frac{1}{2} t^{2} + \frac{1}{3} t^{3} + \frac{1}{4} t^{4} + \dots

将两式相加，我们有：

\frac{1}{2} \ln \frac{1 + t}{1 - t} = t + \frac{1}{3} t^{3} + \frac{1}{5} t^{5} + \dots

回到我们的问题，我们令 $t = (2 p + 1)^{- 1} \in (0, 1)$ ，如此才满足 $\frac{1 + t}{1 - t} = \frac{p + 1}{p}$ ，带入前式：

ε_{p} = \frac{1}{3 (2 p + 1)^{2}} + \frac{1}{5 (2 p + 1)^{4}} + \frac{1}{7 (2 p + 1)^{6}} + \dots

因此：

ε_{p} < \frac{1}{3 (2 p + 1)^{2}} \sum_{i = 0}^{\infty} \frac{1}{(2 p + 1)^{2 i}} = \frac{1}{3 (2 p + 1)^{2}} \frac{1}{1 - \frac{1}{(2 p + 1)^{2}}} = \frac{1}{3 [(2 p + 1)^{2} - 1]} = \frac{1}{12} (\frac{1}{p} - \frac{1}{p + 1})

且

ε_{p} > \frac{1}{3 (2 p + 1)^{2}} \sum_{i = 0}^{\infty} \frac{1}{[3 (2 p + 1)^{2}]^{i}} = \frac{1}{3 (2 p + 1)^{2}} \frac{1}{1 - \frac{1}{3 (2 p + 1)^{2}}} = \frac{1}{3 (2 p + 1)^{2} - 1}

易证

(p + \frac{1}{12}) (p + 1 + \frac{1}{12}) = p^{2} + \frac{7}{6} p + \frac{13}{144} > p^{2} + p + \frac{1}{6} = \frac{1}{12} [3 (2 p + 1)^{2} - 1], p \in N^{+}

因此：

ε_{p} > \frac{1}{12} (\frac{1}{p + \frac{1}{12}} - \frac{1}{p + 1 + \frac{1}{12}})

我们令：

B = \sum_{p = 1}^{\infty} ε_{p}, r_{n} = \sum_{p = n}^{\infty} ε_{p}

那么易得：

\frac{1}{13} < B < \frac{1}{12}, \frac{1}{12 (n + 1)} < r_{n} < \frac{1}{12 n}

带入 $S_{n}$ 的表达式：

S_{n} = (n + \frac{1}{2}) \ln n - n + 1 - B + r_{n}

可得：

n! = e^{1 - B} n^{n + 1 / 2} e^{- n} e^{r_{n}}

令 $C = e^{1 - B}$ ，我们可知常数 $C$ 的取值范围为 $(e^{11 / 12}, e^{12 / 13})$ ，此处我们取 $C = \sqrt{2 π}$ ，该公式得证。 $◻$

1.27 散度定理

散度定理（Divergence Theorem），也称为高斯定理（Gauss's Theorem），是向量分析中的重要定理，它将体积积分和曲面积分联系起来。

具体而言，如果考虑一个 $n$ -维球体（ $n$ -ball） $B^{n}$ 的体积为 $V$ ，其表面为 $S^{n - 1}$ ，对于一个位于 $n$ -维空间中的光滑向量场 $F$ ，则有：

\int_{B^{n}} (\nabla \cdot F) d V = \oint_{S^{n - 1}} F \cdot n d S

其中：

$\nabla \cdot F$ 是向量场 $F$ 的散度。
$d V$ 是体积元素。
$d S$ 是边界表面的面积元素。
$n$ 是边界的单位外法向量。

体积积分计算的是在 $n$ -球内的散度，而表面积分计算的是在 $n - 1$ 维球面上的通量。这种形式的散度定理在物理学和工程学中广泛应用，比如电磁学中的高斯定理、流体力学中的质量守恒等。

1.28 分离超平面定理

如果有两个不相交的非空凸集，则存在一个超平面能够将它们完全分隔开，这个超平面叫做分离超平面（Separating Hyperplane）。形式上，设 $A$ 和 $B$ 是 $R^{n}$ 中的两个不相交的非空凸集，那么存在一个非零向量 $v$ 和一个实数 $c$ ，使得：

⟨ x, v ⟩ \geq c 且 ⟨ y, v ⟩ \leq c

对所有 $x \in A$ 和 $y \in B$ 都成立。即超平面 $⟨ \cdot, v ⟩ = c$ 以 $v$ 作为分离轴（Separating Axis），将 $A$ 和 $B$ 分开。

进一步，如果这两个集合都是闭集，并且至少其中一个是紧致的，那么这种分离可以是严格的，即存在 $c_{1} > c_{2}$ 使得：

⟨ x, v ⟩ > c_{1} 且 ⟨ y, v ⟩ < c_{2}

在不同情况下，我们可以通过调整 $v$ 和 $c$ 来使得分离超平面的边界更加清晰。

A	B	$⟨ x, v ⟩$	$⟨ y, v ⟩$
闭紧集	闭集	$> c_{1}$	$< c_{2}$ 且 $c_{2} < c_{1}$
闭集	闭紧集	$> c_{1}$	$< c_{2}$ 且 $c_{2} < c_{1}$
开集	闭集	$> c$	$\leq c$
开集	开集	$> c$	$< c$

在支持向量机的背景下，最佳分离超平面（或最大边缘超平面）是分离两个点凸包并且与两者等距的超平面。

证明

证明基于以下引理：

设 $A$ 和 $B$ 是 $R^{n}$ 中两个不相交的闭集，且假设 $A$ 是紧致的。则存在点 $a_{0} \in A$ 和 $b_{0} \in B$ 使得 $∥ a - b ∥$ 在 $a \in A$ 和 $b \in B$ 之间取最小值。

我们给出引理的证明：

令 $a \in A$ 和 $b \in B$ 是任意一对点，并令 $r_{1} = ∥ b - a ∥$ 。由于 $A$ 是紧致的，它被包含在以 $a$ 为中心的一些球中，设该球的半径为 $r_{2}$ 。令 $S = B \cap \overset{―}{B_{r_{1} + r_{2}} (a)}$ 为 $B$ 与以 $a$ 为中心、半径为 $r_{1} + r_{2}$ 的闭球的交集。那么 $S$ 是紧致且非空的，因为它包含 $b$ 。由于距离函数是连续的，存在点 $a_{0}$ 和 $b_{0}$ 使得 $∥ a_{0} - b_{0} ∥$ 在所有 $A \times S$ 的点对中取最小值。现在要证明 $a_{0}$ 和 $b_{0}$ 实际上在所有 $A \times B$ 的点对中具有最小距离。假设存在点 $a^{'}$ 和 $b^{'}$ 使得 $∥ a^{'} - b^{'} ∥ < ∥ a_{0} - b_{0} ∥$ 。则特别地， $∥ a^{'} - b^{'} ∥ < r_{1}$ ，并且根据三角不等式， $∥ a - b^{'} ∥ \leq ∥ a - a^{'} ∥ + ∥ a^{'} - b^{'} ∥ < r_{1} + r_{2}$ 。因此 $b^{'}$ 包含在 $S$ 中，这与 $a_{0}$ 和 $b_{0}$ 在 $A \times S$ 中的最小距离相矛盾。

不失一般性地，假设 $A$ 是紧致的。根据引理，存在点 $a_{0} \in A$ 和 $b_{0} \in B$ 使得它们之间的距离最小。由于 $A$ 和 $B$ 是不相交的，我们有 $a_{0} \neq b_{0}$ 。现在，构造两条与线段 $[a_{0}, b_{0}]$ 垂直的超平面 $L_{A}, L_{B}$ ，其中 $L_{A}$ 穿过 $a_{0}$ ， $L_{B}$ 穿过 $b_{0}$ 。我们声称 $A$ 和 $B$ 都没有进入 $L_{A}, L_{B}$ 之间的空间，因此与 $(a_{0}, b_{0})$ 垂直的超平面满足定理的要求。

代数上，超平面 $L_{A}, L_{B}$ 由向量 $v := b_{0} - a_{0}$ 定义，并由两个常数 $c_{A} := ⟨ v, a_{0} ⟩ < c_{B} := ⟨ v, b_{0} ⟩$ 确定，使得 $L_{A} = {x : ⟨ v, x ⟩ = c_{A}}, L_{B} = {x : ⟨ v, x ⟩ = c_{B}}$ 。我们的主张是 $\forall a \in A, ⟨ v, a ⟩ \leq c_{A}$ 并且 $\forall b \in B, ⟨ v, b ⟩ \geq c_{B}$ 。

假设存在某个 $a \in A$ 使得 $⟨ v, a ⟩ > c_{A}$ ，则令 $a^{'}$ 为从 $b_{0}$ 到线段 $[a_{0}, a]$ 的垂足。由于 $A$ 是凸集， $a^{'}$ 在 $A$ 内部，并且根据平面几何， $a^{'}$ 比 $a_{0}$ 更接近 $b_{0}$ ，这与 $a_{0}$ 和 $b_{0}$ 的最小距离相矛盾。类似的论证适用于 $B$ 。 $◻$

1.29 支撑超平面定理

对于一个凸集，支撑超平面（Supporting Hyperplane）是与凸集边界切线的超平面，即它“支撑”了凸集，使得所有的凸集内的点都位于支撑超平面的一侧。形式上，若 $S$ 是非空凸集，且 $x_{0}$ 是 $S$ 的边界上的一点，那么存在一个包含 $x_{0}$ 的支撑超平面。如果 $x^{*} \in X^{*} ∖ {0}$ （ $X^{*}$ 是 $X$ 的对偶空间， $x^{*}$ 是一个非零的线性泛函），并且对于所有 $x \in S$ 都有 $x^{*} (x_{0}) \geq x^{*} (x)$ ，那么 $H = {x \in X : x^{*} (x) = x^{*} (x_{0})}$ 定义了一个支撑超平面。

证明

定义 $T$ 为所有支撑闭合半空间的交集，显然 $S \subset T$ 。现在令 $y \notin S$ ，证明 $y \notin T$ 。

设 $x \in int (S)$ ，并考虑线段 $[x, y]$ 。令 $t$ 为最大的数，使得 $[x, t (y - x) + x]$ 被包含在 $S$ 中。则 $t \in (0, 1)$ 。令 $b = t (y - x) + x$ ，那么 $b \in \partial S$ 。在 $b$ 处画一条支撑超平面，令其表示为一个非零线性泛函 $f : R^{n} \to R$ ，使得 $\forall a \in T, f (a) \geq f (b)$ 。由于 $x \in int (S)$ ，我们有 $f (x) > f (b)$ 。因此，由 $\frac{f (y) - f (b)}{1 - t} = \frac{f (b) - f (x)}{t - 0} < 0$ ，我们得到 $f (y) < f (b)$ ，所以 $y \notin T$ 。 $◻$

第1章：预备定理 ​

1.1 Jensen 不等式 ​

证明 ​

1.2 Hölder 不等式 ​

证明 ​

1.3 Cauchy-Schwarz 不等式 ​

1.4 Lyapunov 不等式 ​

证明 ​

1.5 Minkowski 不等式 ​

证明 ​

1.6 Bhatia-Davis 不等式 ​

证明 ​

1.7 Union Bound（Boole's）不等式 ​

证明 ​

1.8 Markov 不等式 ​

证明 ​

1.9 Chebyshev 不等式 ​

证明 ​

1.10 Cantelli 不等式 ​

证明 ​

1.11 Chernoff 界（Chernoff-Cramér 界） ​

证明 ​

1.12 Chernoff 不等式（乘积形式） ​

证明 ​

1.13 最优 Chernoff 界 ​

证明 ​

1.14 Hoeffding 不等式 ​

证明 ​

1.15 McDiarmid 不等式 ​

证明 ​

1.16 Bennett 不等式 ​

证明 ​

定义 3: 差有界性 ​

定义 4: 离散鞅 ​

引理 2: Azuma-Hoeffding 定理 ​

证明 ​

1.17 Bernstein 不等式 ​

证明 ​

1.18 Azuma–Hoeffding（Azuma）不等式 ​

证明 ​

1.19 Slud 不等式 ​

证明 ​

1.20 上界不等式之加性公式 ​

证明 ​

1.21 正态分布不等式 ​

证明 ​

1.22 AM-GM 不等式 ​

证明 ​

1.23 Young 不等式 ​

证明 ​

1.24 Bayes 定理 ​

证明 ​

1.25 广义二项式定理 ​

证明 ​

1.26 Stirling 公式 ​

证明 ​

1.27 散度定理 ​

1.28 分离超平面定理 ​

证明 ​

1.29 支撑超平面定理 ​

证明 ​

第1章：预备定理

1.1 Jensen 不等式

证明

1.2 Hölder 不等式

证明

1.3 Cauchy-Schwarz 不等式

1.4 Lyapunov 不等式

证明

1.5 Minkowski 不等式

证明

1.6 Bhatia-Davis 不等式

证明

1.7 Union Bound（Boole's）不等式

证明

1.8 Markov 不等式

证明

1.9 Chebyshev 不等式

证明

1.10 Cantelli 不等式

证明

1.11 Chernoff 界（Chernoff-Cramér 界）

证明

1.12 Chernoff 不等式（乘积形式）

证明

1.13 最优 Chernoff 界

证明

1.14 Hoeffding 不等式

证明

1.15 McDiarmid 不等式

证明

1.16 Bennett 不等式

证明

定义 3: 差有界性

定义 4: 离散鞅

引理 2: Azuma-Hoeffding 定理

证明

1.17 Bernstein 不等式

证明

1.18 Azuma–Hoeffding（Azuma）不等式

证明

1.19 Slud 不等式

证明

1.20 上界不等式之加性公式

证明

1.21 正态分布不等式

证明

1.22 AM-GM 不等式

证明

1.23 Young 不等式

证明

1.24 Bayes 定理

证明

1.25 广义二项式定理

证明

1.26 Stirling 公式

证明

1.27 散度定理

1.28 分离超平面定理

证明

1.29 支撑超平面定理

证明