附录
编辑:赵志民, 李一飞
范数
范数(norm)是数学中用于为向量空间中的每个非零向量分配严格正长度或大小的函数。几何上,范数可理解为向量的长度或大小。例如,绝对值是实数集上的一种范数。与之相对的是半范数(seminorm),它可以将非零向量赋予零长度。
向量空间上的半范数需满足以下条件:
- 半正定性(非负性):任何向量的范数总是非负的,对于任意向量
, 。 - 可伸缩性(齐次性):对于任意标量
和任何向量 ,标量乘法 的范数等于标量的绝对值乘以向量的范数,即 。 - 次可加性(三角不等式):对于任何向量
和 ,向量和 的范数小于或等于向量 和 的范数之和,即 。
范数在具备上述半范数特性的基础上,还要求:对于任意向量
常用的向量范数包括:
范数:向量 中非零元素的个数,表示为 。 范数:向量 中各元素绝对值之和,表示为 。 范数(欧几里得范数):向量 各元素绝对值的平方和再开平方,表示为 。 范数:向量 各元素绝对值的 次方和再开 次方,表示为 。 范数(极大范数):向量 中各元素绝对值的最大值,表示为 。 - 加权范数:设
为 阶 Hermite 正定矩阵,则向量 的加权范数定义为 。此类范数在本书第 8.3.2 和 8.4.2 节中经常使用。
凸集合
凸集合(convex set)是向量空间(如欧几里得空间)中的一个子集,对于集合中的任意两点,连接它们的线段完全位于该集合内。换句话说,若一个集合包含了连接集合内任意两点的线段上的所有点,则该集合是凸集合。
形式化地说,考虑向量空间
凸集合具有非扩张性(non-expansiveness),即对于集合内的任意两点,连接这两点的线段完全包含在集合内。这种性质使得凸集合在许多数学环境中易于处理,特别是在优化问题中:在凸集合中找到的最小值或最大值必为全局值,没有局部最小值或最大值,从而简化了搜索过程。
不仅凸集合具有非扩张性,映射到凸集合的投影操作也是非扩张的,即两点在凸集合上的投影之间的距离不大于两点本身之间的距离。形式上,对于闭合凸集合
即将一个向量映射到最接近它的凸集合中的点。投影算子
该性质证明如下:
令
同理,令
此时,令
将两个不等式相加可得:
根据 Cauchy-Schwarz 不等式,有:
这种投影映射经常用于凸优化中,因为它能将问题简化为凸优化问题,从而提高算法效率,并在许多情况下保证全局最优解。
Hessian 矩阵
Hessian 矩阵
其中,
凸函数
凸函数(convex function)是定义在凸集上的实值函数,满足以下性质:对于定义域内的任意两个点
该不等式被称为凸性条件。
除了上述定义,凸函数还有以下几种等价的定义方式:
- 一阶条件:若一个定义在凸集上的函数
满足下述条件:
其中,
二阶条件:若函数
是二次可微的,则它是凸函数当且仅当其 Hessian 矩阵 在其定义域内的所有点 上都是半正定的(即矩阵的所有特征值均为非负)。 Jensen 不等式:若
是凸函数,则对于定义域内的任意一组点 和归一化的非负权重 ,即 ,有:
- 上图集定义:凸函数与凸集合的概念密切相关。函数
是凸函数,当且仅当其上图集(epigraph)是一个凸集。上图集是位于函数图像上方的点的集合,定义为:
其中,
凸函数的一些特性包括:
- 正比例性质:若函数
是凸函数,则对于任意常数 ,函数 也是凸函数。 - 正移位性质:若函数
是凸函数,则对于任意常数 ,函数 也是凸函数。 - 加法性质:若
和 均为凸函数,则它们的和 也是凸函数。
凹函数
凹函数(concave function)的定义与凸函数相反。对于其定义域内的任意两个点
此不等式被称为凹性条件。
其他定义与凸函数类似,这里不再赘述。值得注意的是,若函数
强凸函数
若
此时,称
强凸函数的其他等价定义包括:
Hessian 矩阵条件:若一个两次可微的函数
的 Hessian 矩阵 在凸集中的所有 处均为正定的(即矩阵的所有特征值为正),则该函数是强凸的。 梯度条件:若一个可微函数
是强凸的,则存在一个常数 ,使得对于凸集中的任意 ,有 。其中, 表示 在点 处的梯度。
直观上,对于强凸函数
以下给出定理 7.2 的证明:
根据强凸函数的定义,取
令
其中
由于
指数凹函数
若函数
指数凹函数的一些特性包括:
- 正比例性质:若函数
为指数凹函数,则对于任意常数 ,函数 也是指数凹函数。 - 负移位性质:若函数
为指数凹函数,且 为常数,则函数 也是指数凹函数。
指数凹函数提供了一种灵活且富有表现力的方式来建模各种现象。它能捕捉广泛的形状和行为。例如,在凸优化中使用指数凹函数可以加快迭代优化算法(如梯度下降或牛顿法)的收敛速度。因此,指数凹函数在处理概率模型或存在不确定性的场景中具有重要意义,特别是在限制或量化不确定性方面。
凸优化
凸优化(convex optimization)是优化理论的一个分支,研究的是在凸函数的凸集上进行优化的问题。凸优化的目标是在满足一组凸约束条件的情况下,找到凸目标函数的最小值。
一般形式的凸优化问题可以表示为:
其中,
凸优化具有以下有利特性,使其成为一个被广泛研究和应用的领域:
全局最优性:凸优化问题的一个关键性质是,任何局部最小值也是全局最小值。此性质确保凸优化算法找到的解是给定凸集中的最优解。
高效算法:凸优化拥有多项式时间内找到最优解的高效算法。这些算法基于凸目标函数和约束条件的凸性,能够有效解决复杂的优化问题。
广泛应用:凸优化在工程学、金融学、机器学习、运筹学和信号处理等领域有着广泛的应用。它被用于解决如投资组合优化、信号重构、资源分配和机器学习模型训练等问题。凸优化技术,如线性规划、二次规划和半定规划,构成了许多优化算法的基础,为高效解决复杂优化问题提供了强大工具。
以下证明凸函数任何局部最优解均为全局最优解的性质。
假设
由
结合以上两式,可得:
由于
仿射
仿射变换(Affine transformation),又称仿射映射,是指在几何中,对一个向量空间进行一次线性变换并加上一个平移,变换为另一个向量空间。若该线性映射被表示为矩阵
其中,
仿射变换具有以下性质:
- 点之间的共线性:在同一条直线上的三个或更多的点(即共线点)在变换后依然位于同一条直线上(共线)。
- 直线的平行性:两条或以上的平行直线在变换后仍保持平行。
- 集合的凸性:凸集合在变换后依然是凸集合,且最初的极值点被映射到变换后的极值点集。
- 平行线段的长度比例恒定:两条由点
定义的平行线段,其长度比例在变换后保持不变,即 。 - 质心位置恒定:不同质量的点组成集合的质心位置在仿射变换后保持不变。
仿射集(affine set)是指欧氏空间
仿射包(affine hull/span)是包含集合
仿射包具有以下性质:
- 若
为有限维度,则 为闭集合。
Slater条件/定理
关于强对偶性的讨论,11页 已给出了详细说明,此处不再赘述。这里着重讨论 11页 左下角附注提到的 Slater 条件,即:
存在一点
其中,
当满足 Slater 条件且原始问题为凸优化问题时:
- 强对偶性成立。
- 对偶最优解集合非空且有界。
这就是 Slater 定理。
证明
首先证明对偶间隙(Duality Gap)为零,即原始问题与对偶问题的目标函数值之差
集合
- 它是凸集合,可由
的凸性质得出。 - 若
,且 ,则 。
易证向量
在此情况下,必然有
因此,只需考虑两种情况:
:此时根据上式,可得
另一方面,根据
其中,
:对上式左右两边除以 ,得:
其中,
考虑拉格朗日函数
其对偶函数为:
其对偶问题为:
因此,可得
接着证明对偶问题最优解集合非空且有界。对于任意对偶最优解
因此,有:
进而得出:
其中,最后一个不等式依据 Slater 条件得出。
KKT条件
KKT条件(Karush-Kuhn-Tucker条件)在凸优化领域具有至关重要的地位。虽然在12-13页 中对其进行了基本解释,此处将进行更为深入的分析。KKT条件中的符号
证明
首先,对于
固定
固定
充分性:若解对
必要性:任意解对
在此对 KKT 和 Slater 条件进行区分:
KKT条件 是一组用于确定约束优化问题中解的最优性的条件。它们通过将约束纳入条件,扩展了无约束优化中设定目标函数梯度为零的思路到约束优化问题中。
Slater条件 是凸优化中确保强对偶性的特定约束条件,即主问题和对偶问题最优解的等价性。KKT条件包括对偶问题的约束、互补松弛条件、主问题约束和稳定性。它们整合了目标和约束函数的梯度以及 KKT 乘子,以形成最优性条件。
Slater 条件要求存在一个严格可行点,即严格满足所有不等式约束的点。当点满足 KKT 条件时,表明问题的局部最优解已找到。这些条件弥合了主问题和对偶问题之间的差距,对于分析和解决约束优化问题至关重要。
满足 Slater 条件时,确保凸优化问题的强对偶性,对于简化和解决这些问题至关重要。Slater 条件并不直接提供最优性条件,但为强对偶性铺平了道路,之后可以利用强对偶性寻找最优解。KKT条件 较为通用,适用于更广泛的优化问题类别,包括非凸问题。
Slater条件 则特定于凸优化问题,用于确保这些问题中的强对偶性。对于凸且可微的问题,满足 KKT 条件意味着最优性和强对偶性。相反,最优性和强对偶性意味着所有问题的 KKT 条件得到满足。
当 Slater 条件成立时,KKT 条件是最优解的充要条件,此时强对偶性成立。
KKT条件和 Slater 条件通常被归类为“正则条件”(regularity condition)或“约束资格”(constraint qualification)。这些条件为优化问题提供了一个结构化的框架,以便在约束情况下分析和确定解的最优性。更多的正则条件详见参考文献:On regularity conditions in mathematical programming。
偏序集
序理论(Order Theory)是数学的一个分支,它的核心思想是通过定义某种“序”来描述元素之间的相对关系。在序理论中,一个偏序集(partial order set,简称 poset)包含一个非空集合
- 自反性(Reflexivity):对于
中的任意元素 ,都有 。 - 反对称性(Antisymmetry):对于
中的任意元素 和 ,如果 且 ,那么 。 - 传递性(Transitivity):对于
中的任意元素 、 和 ,如果 且 ,那么 。
这些条件定义了偏序关系,使其与全序(total order)关系不同。在偏序集中,可能存在某些元素是不可比较的,即对于
上下界
上界(upper bound 或 majorant)是与偏序集有关的特殊元素,指偏序集中大于或等于其子集中一切元素的元素。若数集
尾界
尾界(tail bound)是指给定一个随机变量,其概率分布尾部部分的界限。上尾界(upper tail bound)描述随机变量在其分布上尾处的概率上限,而下尾界(lower tail bound)描述随机变量在其分布下尾处的概率上限。Chebyshev 不等式、Hoeffding 不等式和 Bernstein 不等式都是尾界的例子,它们提供了随机变量偏离其期望值的概率界限。
置信界
置信界(confidence bound)是在估计一个未知参数时,给出一个包含该参数的区间,并且这个区间具有特定的置信水平。例如,一个95%的置信区间意味着我们有95%的信心该区间包含真实的参数值。置信界可以是上置信界(upper confidence bound),下置信界(lower confidence bound),或同时包含上下界的置信区间(confidence interval)。上置信界提供对参数估计的可能最大值的上限,下置信界提供对参数估计的可能最小值的下限。
连续性
连续性(continuity)表示函数在某处的变化不会突然中断或跳跃。形式上,如果函数
- 函数
在 处有定义。 - 当
趋近于 时, 的极限存在且等于 。
连续性意味着输入的微小变化导致输出的微小变化。如果一个函数在其定义域的每个点上都是连续的,则称其为连续函数。
Lipschitz 连续性是连续性的更强形式,它要求函数在变化速度方面有界。具体而言,如果存在一个常数
其中,
事实上,如果一个函数的导数有界,那么它一定是 Lipschitz 连续的;反之,如果一个可微函数是 Lipschitz 连续的,那么它的导数一定有界。
证明如下:
- 若函数
的导数有界,即存在常数 ,使得对于任意 ,有 。根据微分中值定理,对于任意 ,存在 ,使得:
此时,函数是
- 若函数
是 连续的,即对于任意 ,有
根据微分中值定理,对于任意
不妨令
因为
连续性关注函数图像中跳跃或中断的缺失,而 Lipschitz 连续性关注函数的变化速度。因此,Lipschitz 连续性是比连续性更严格的条件。一个连续函数不一定是 Lipschitz 连续的,因为连续性不要求函数变化速度有界。然而,一个 Lipschitz 连续的函数必然是连续的,因为 Lipschitz 连续性蕴含连续性。
Lipschitz 连续性的性质在数学的各个领域中广泛应用,如分析、优化和微分方程研究。它在保证某些数学问题的解的存在性、唯一性和稳定性方面起着关键作用。
光滑性
在数学分析中,函数的光滑性(smoothness)通过函数在某个域(称为可微性类)上的连续导数的数量来衡量。最基本的情况下,如果一个函数在每个点上都可导(因此连续),则可以认为它是光滑的。 一方面,光滑性确保了梯度下降等优化算法能够更快收敛,并减少可能遇到的梯度震荡或发散的情况。 另一方面,光滑性提供了函数曲率的信息,从而帮助设计更有效的优化算法,如加速梯度下降法或牛顿法。
在优化理论中,
或者等价地,
或者等价地,
以上三种定义方式是等价的,且
接下来我们证明这些定义的等价性。首先,我们证明定义1可以推导出定义2。
考虑函数
其中
根据
将二阶泰勒展开的结果代入其中:
对于任意的非零向量
我们得到:
由于
其中,由于
接下来我们证明定义2可以推导出定义3。由定义2,给定
将定义中的
将两个不等式相加可得:
注意到不等式左侧的内积无论如何取值,该不等式均成立。 根据 Cauchy-Schwarz 不等式,当
化简后即得证。
这里对光滑性和
连续性关注的是函数值变化的速度,即函数值的“陡峭程度”,而光滑性关注的是梯度变化的速度,即函数的“曲率”或二阶变化。 连续性表示函数变化不会太快,确保函数的整体平滑性,而光滑性表示梯度变化不会太快,确保函数曲面没有急剧的弯曲。
次梯度
次梯度(subgradient)是凸函数导数的推广形式。某些凸函数在特定区域内可能不存在导数,但我们依旧可以用次梯度来表示该区域内函数变化率的下界。形式上,对于凸函数
根据微分中值定理的逆命题,
此时,次梯度
次梯度在机器学习领域广泛应用,特别是在训练支持向量机(SVM)和其他具有非可微损失函数的模型中。它们还构成了随机次梯度方法的基础,这些方法在处理大规模机器学习问题时非常有效。
对偶空间
线性泛函(linear functional)是指从向量空间
所有从
Legendre变换
将函数转换为另一种函数,常用于改变其定义域和属性,使问题更简单或更易分析。Legendre 变换(Legendre transform)常用于将一组独立变量转换为另一组独立变量,特别是在经典力学和热力学中。以下是 Legendre 变换的基本概念和步骤:
- 定义函数:假设有一个凸函数
,其自变量为 。 - 定义共轭变量:定义新的变量
,它是原函数 的导数,即 。 - 定义共轭函数:定义新的函数
,其形式为: 。这里, 是 的自变量,同时也是 的隐含变量。 - 变换关系:通过 Legendre 变换,从原来的函数
得到新的函数 ,这个新的函数 依赖于共轭变量 。
共轭函数
凸共轭(convex conjugate)是 Legendre 变换的一种推广,因此也被称为 Legendre-Fenchel 变换(Legendre-Fenchel transform)。通过凸共轭变换,原函数可以转换为凸函数,从而利用凸函数的性质来解决原问题。
形式上,对于函数
其中,
共轭函数具有以下一些有用的性质:
- 凸性:函数
的共轭函数 一定是凸函数。证明如下:
其中的不等式利用了凸性的性质。
- 逆序性:对于定义域中所有元素
,若 ,则 。证明如下:
由于
- 极值变换:若
可微,则对于 ,有:
此性质即书中的(1.10),完整证明如下:
为了在
此时有
σ-代数
σ-代数(或 σ-域)是测度论和概率论中的一个重要概念。σ-代数是一个满足特定封闭性质的集合族,使我们能够对这些集合定义一致的测度(如概率)。具体来说,σ-代数是一个集合族,满足以下三个性质:
- 包含全集:如果
是定义在集合 上的一个 σ-代数,那么 本身属于 ,即 。 - 对补集封闭:如果
是 中的一个集合,那么它的补集 也属于 ,即 。 - 对可数并封闭:如果
是 中的集合,那么它们的可数并集 也属于 ,即 对所有 ,则 。
σ-代数在测度论中尤为重要,因为它为定义测度提供了必要的框架。测度是定义在 σ-代数上的集合函数,用于度量集合的“大小”。在概率论中,σ-代数用于定义事件空间,从而定义概率测度。
过滤
σ-代数
- 每个
是一个 σ-代数:对于每个时刻 , 是定义在某个固定集合 上的一个 σ-代数。 - 单调性:对于任意的
,有 。这意味着随着时间的推移,所包含的信息只会增加,不会减少。
鞅
鞅(Martingale)是概率论中的一个重要概念,用于描述某些类型的随机过程。鞅过程的特点是,其未来期望值在已知当前信息的条件下等于当前值。
形式化定义
设
- 适应性(Adaptedness):对于每一个
, 是 -可测的(即 的值在时间 时刻是已知信息的函数)。 - 积分性(Integrability):对于所有
, 。 - 鞅性质(Martingale Property):对于所有
和 ,有 。这意味着在已知当前时刻 的信息 条件下,未来某个时刻 的期望值等于当前时刻 的值。
直观解释
鞅的定义保证了在已知当前信息的条件下,未来值的期望等于当前值,这反映了一种“无偏性”。因此,鞅过程可以被看作是一种“公平游戏”。设想一个赌徒在赌场中进行赌博,如果这个赌徒的资金变化形成一个鞅过程,那么在任何时刻,给定当前的资金情况,未来资金的期望值都是当前的资金,表示没有系统性的赢或输的趋势。
举例说明
考虑一个简单的随机游走过程,其中
鞅的类型
除了标准的鞅,还有两个相关的概念:
- 超鞅(Submartingale):若对于所有
和 ,有 ,则称 为超鞅(或上鞅)。 - 亚鞅(Supermartingale):若对于所有
和 ,有 ,则称 为亚鞅(或下鞅)。
一个区分超鞅和亚鞅的记忆方法是:“生活是一个超鞅:随着时间的推进,期望降低。”
鞅差序列
鞅差
- 适应性(Adaptedness):对于每一个
, 是 -可测的。 - 零条件期望(Zero Conditional Expectation):对于所有
,有 ,即在已知过去信息 的条件下, 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差,即每一步的变化是纯随机的。
虽然鞅差序列中的每个元素的条件期望为零,但这并不意味着这些元素是独立的。相反,它们可以有复杂的依赖关系。鞅差序列的关键性质是每个元素在条件期望下为零,这使得它在分析鞅和集中不等式(如 Bernstein 不等式)中非常有用。
KL 散度
KL 散度(Kullback-Leibler 散度),也称为相对熵,是一种用于衡量两个概率分布之间差异的非对称度量,在信息论和统计学中广泛应用。KL 散度衡量的是在使用近似分布时,相比于使用真实分布,所增加的“信息损失”或“不确定性”。
定义
假设有两个概率分布
对于连续分布:
其中,
性质
- 非负性:KL 散度总是非负的,即
,只有当 和 完全相同时,KL 散度才为零。
非负性的证明
KL 散度的非负性可以通过 Jensen 不等式来证明。首先,考虑离散情况下的 KL 散度定义:
由于对数函数是一个凹函数,可以应用 Jensen 不等式。对于凹函数
将
因为
于是,有:
即:
- 非对称性:
,即 KL 散度不是对称的,交换 和 一般会导致不同的结果。
应用
- 机器学习:在训练过程中,KL 散度常用于优化目标函数,例如变分自编码器(VAE)和生成对抗网络(GAN)。通过最小化 KL 散度,可以使近似分布
尽可能接近真实分布 ,从而提高模型的准确性和效率。 - 信息论:用于测量编码方案的效率,评估数据压缩方案等。
- 统计学:用于假设检验和模型选择。
先验和后验
先验(Prior)和后验(Posterior)是贝叶斯统计中的两个核心概念,用于描述不确定性和信息更新的过程。
先验概率(Prior Probability)
定义:先验概率是指在获得新数据之前,根据已有的知识或经验对某一事件或参数的初始估计。先验概率反映了在观察到新数据之前,我们对某一事件或参数的不确定性。
表示方法:用
作用:先验概率提供了一个起点,在进行贝叶斯推断时,它与新的数据结合,更新我们的认知。
后验概率(Posterior Probability)
定义:后验概率是指在获得新数据之后,根据贝叶斯定理更新的某一事件或参数的概率分布。后验概率反映了在观察到新数据之后,我们对某一事件或参数的不确定性。
表示方法:用
计算方法:根据贝叶斯定理,后验概率可以通过先验概率、似然函数和边际似然计算得到:
其中:
是后验概率。 是似然函数,表示在给定参数 时观察到数据 的概率。 是先验概率。 是边际似然,表示观察到数据 的总体概率。
拓扑向量空间
拓扑向量空间(Topological Vector Space,简称 TVS)是一个定义在拓扑域
拓扑向量空间是数学分析和函数空间理论中的重要概念,它们将向量空间的代数结构与拓扑空间的结构相结合,从而使我们能够更好地理解向量空间中的连续性和收敛性。
超平面
超平面(Hyperplane)是指一个比所在拓扑向量空间少一维的平滑仿射子空间。
半空间(Half Space)是指拓扑向量空间被超平面划分出的两个区域之一。
假设有一个超平面,其由以下方程定义:
其中,
两个半空间分别由以下不等式定义:
和
这些不等式中的每一个代表了超平面两侧的一个半空间,满足其中一个不等式的点位于相应的半空间中。
紧空间
紧空间(Compact Space)在数学中是一种具有特殊性质的空间,即它在某种意义上表现得像“有限的”,即使它可能看起来非常大,甚至是无限的。
一个空间被称为紧致的,如果可以用有限数量的小而重叠的片段完全覆盖整个空间。换句话说,即使这个空间本身可能非常大或无限大,但紧致性意味着总能用有限数量的部分来描述它的全貌。
紧空间可以理解为一种“有限”或“被包含”的空间。这种空间不会让你“无限延伸”,而是会将你限制在某个范围内。想象你在一个小岛上,无论你走到哪里,总会遇到岛的边缘——你不能无限制地前进,总有一个尽头。这类似于紧空间。
相反地,如果你在一片无边无际的沙漠中,可以一直走下去而永远不会到达尽头,这类似于非紧空间。在紧空间中,总有一种“有限”的感觉,而在非紧空间中,感觉像是没有尽头的延伸。
Taylor展开
Taylor展开(Taylor Expansion)是用多项式来近似一个函数的工具。它表示一个函数在某一点附近的值为该函数在该点的导数信息的线性组合,从而通过简单的多项式来逼近复杂的函数。
定义:
给定一个在某点
其中:
表示函数 在点 处的第 阶导数, 是剩余项(余项),它表示截断后,未被包含的误差部分。
当
特殊情况:麦克劳林(Maclaurin)展开
当
例子:
指数函数的 Taylor 展开(以
为例,即 麦克劳林展开): 正弦函数的 Taylor 展开(在
处):
通过 Taylor 展开,我们可以在某个点附近用有限项多项式来近似复杂的函数。这在数值计算和分析中非常有用。
