信息论——度量信息的数学
兔狲教授的提示:信息是物理世界之外的另一个基本量。信息论不仅告诉我们如何高效地存储和传输信息,更重要的是,它提供了度量信息、不确定性和知识的数学框架。从数据压缩到通信编码,从机器学习到量子计算,信息论是现代数字世界的基石。
词条1:信息熵——不确定性的度量
官方解释
信息熵:离散随机变量
性质:
- 非负性:
- 最大值:当分布均匀时熵最大
- 可加性:独立随机变量的联合熵等于熵的和
直观理解:熵度量了随机变量的不确定性或'惊喜程度'。
单位:
- 以2为底:比特(bit)
- 以e为底:纳特(nat)
- 以10为底:哈特利(hartley)
兔狲老师解释
熵是'意外的期望值'。
小小猪举了个例子:天气预报:
- 确定性天气(如沙漠总是晴天):熵
,没有不确定性 - 等可能天气(晴雨各50%):熵
比特,最大不确定性 - 偏态分布(晴90%,雨10%):熵
比特,有一定不确定性
信息量:事件
- 罕见事件:信息量大(惊喜!)
- 常见事件:信息量小(预料之中)
- 熵:信息量的期望值
熵的极值:
- 最小熵
:确定分布(某个结果概率为1) - 最大熵
:均匀分布(所有结果等可能) - 最大熵原理:在给定约束下,选择熵最大的分布
思考题1:动手题
问题:计算以下分布的熵:
- 伯努利分布
: - 均匀分布:掷骰子(6面均匀)
- 偏态分布:
问题:证明:
思考题2:动脑题
问题:熵为什么用对数定义?线性函数不行吗?
思考方向:
- 独立事件的信息可加性
- 编码长度的联系
- 对数的数学性质
词条2:联合熵、条件熵与互信息
官方解释
联合熵:
条件熵:
链式法则:
互信息:
性质:
当且仅当 独立 - 对称性:
兔狲老师解释
这些量描述'变量之间的关系'。
小海豹举了个例子:天气和穿衣:
:天气(晴/雨) :穿衣(短袖/长袖) :天气的不确定性 :穿衣选择的不确定性 :知道天气后,穿衣的不确定性 :天气和穿衣的相关性
如果穿衣完全由天气决定:
思考题1:动手题
问题:设
问题:证明:
思考题2:动脑题
问题:互信息与相关系数有什么区别?各度量什么?
思考方向:
- 线性关系 vs 一般依赖关系
- 对称性 vs 非对称性
- 在特征选择中的应用
词条3:KL散度与交叉熵
官方解释
KL散度(相对熵):
性质:
- 非负性:
- 零散度:
当且仅当 - 非对称性:
交叉熵:
兔狲老师解释
KL散度是"分布间的距离"(但不是度量)。
兔狲教授举例说:真实分布
:真实数据分布 :模型预测分布 :用 近似 的代价 - 最小化KL散度:让模型分布接近真实分布
机器学习中的交叉熵损失: 分类问题:真实标签
KL散度的不对称性:
- 正向KL:
,强调覆盖 的所有模式 - 反向KL:
,避免 在 为零处有概率 - 在变分推断中:用反向KL得到更紧凑的近似
思考题1:动手题
问题:计算KL散度:
, , ,
问题:证明:
思考题2:动脑题
问题:为什么KL散度不对称?这在实际应用中有什么影响?
思考方向:
- 从编码角度理解
- 在变分推断中的选择
- 在生成模型(如VAE)中的应用
词条4:香农编码定理
官方解释
编码:将源符号映射到码字(二进制串)。
前缀码:没有任何码字是其他码字的前缀。
Kraft不等式:前缀码存在的充要条件是
最优编码:码长
香农第一定理(无噪声编码定理): 对离散无记忆信源,存在编码使平均码长
兔狲老师解释
编码是'用比特表示信息'。
小小猪举了个例子:压缩英文文本:
- 字母'e'常见:用短码(如'0')
- 字母'z'罕见:用长码(如'1110')
- 霍夫曼编码:最优前缀码
- 平均码长接近熵
熵的意义:
:无损压缩的极限 - 数据压缩不能低于熵(无损时)
- 这就是为什么随机数据难压缩
实际编码:
- 霍夫曼编码:贪心算法构造最优前缀码
- 算术编码:更接近熵限,处理整个消息
- LZ系列:基于字典的通用编码
- 实际压缩工具:gzip, PNG, MP3等
思考题1:动手题
问题:对符号集
- 计算熵
- 构造霍夫曼编码
- 计算平均码长,验证香农定理
问题:证明Kraft不等式:对前缀码,
思考题2:动脑题
问题:香农定理的哲学意义是什么?"信息"可以被精确度量吗?
思考方向:
- 信息作为基本量
- 压缩极限与物理极限
- 算法信息论(柯尔莫哥洛夫复杂度)
词条5:信道容量与香农第二定理
官方解释
离散无记忆信道:输入
信道容量:
香农第二定理(有噪声信道编码定理): 只要传输速率
信道编码:添加冗余纠正错误。
典型序列:概率接近
兔狲老师解释
信道容量是'可靠通信的极限'。
小海豹举了个例子:二进制对称信道(BSC):
- 输入0/1,以概率
翻转为1/0 - 容量
(其中 是二元熵) - 当
(无噪声): (每比特可靠传输1比特) - 当
(完全随机): (无法可靠传输) - 当
:
编码奇迹:
- 添加冗余(如重复码、汉明码、LDPC码)
- 在噪声中可靠传输
- 接近香农极限(Turbo码、Polar码)
实际系统:
- WiFi:使用卷积码、LDPC码
- 5G:使用Polar码(理论最优)
- 存储系统:RAID、ECC内存
- 深空通信:需要极强纠错
思考题1:动手题
问题:计算以下信道容量:
- 无噪声信道:
if else - 二进制擦除信道:以概率
擦除(输出?),否则正确 - Z信道:
概率1, 概率 , 概率
问题:证明:
思考题2:动脑题
问题:香农第二定理为什么令人惊讶?它解决了什么问题?
思考方向:
- 噪声下的可靠通信
- 冗余与效率的权衡
- 编码理论的诞生
词条6:信息论在AI中的应用
官方解释
最小描述长度(MDL):选择使"模型复杂度+数据拟合误差"最小的模型。
信息瓶颈:在压缩输入和预测输出之间权衡。
变分推断:用KL散度近似后验分布。
互信息最大化:在表示学习中。
信息论聚类:如信息瓶颈聚类。
兔狲老师解释
信息论是AI的'指导原则'。
兔狲教授举例说:决策树学习:
- 选择分裂特征:最大化信息增益(互信息)
- 信息增益
- 这就是ID3、C4.5算法的核心
表示学习:
- 目标:学习有用的数据表示
- 信息瓶颈:
- 压缩输入
到表示 ,同时保留预测 的信息 控制压缩程度
生成模型:
- VAE:最小化重构误差
KL散度(正则化) - GAN:判别器和生成器的博弈
- 扩散模型:逐步去噪的信息论过程
信息论与深度学习:
- 批量归一化:减少内部协变量偏移
- Dropout:防止特征共适应
- 注意力机制:信息瓶颈视角
- 对比学习:互信息最大化
思考题1:动手题
问题:实现决策树:
- 计算每个特征的信息增益
- 选择最大增益的特征分裂
- 递归构建树
- 用信息增益比改进(C4.5)
问题:用信息瓶颈分析简单数据集:
- 计算
- 学习表示
- 绘制
vs 曲线 - 分析最优
思考题2:动脑题
问题:信息论如何改变我们对机器学习的理解?从'最小化误差'到'信息处理'的视角转变。
思考方向:
- 学习作为压缩
- 泛化作为最小描述长度
- 表示作为信息瓶颈
- 深度学习的信息论解释
总结:信息的世界观
兔狲教授总结道:信息论不仅是一套数学工具,更是一种世界观:
- 信息是基本的:与物质、能量并列的基本量
- 不确定性可度量:熵量化了无知的程度
- 通信有极限:香农定理划定了可能性的边界
- 学习即压缩:从数据中提取规律就是压缩信息
在AI中,信息论提供了:
- 设计原则:如最大信息增益、最小描述长度
- 分析工具:如互信息分析特征重要性
- 理论框架:理解学习的本质和极限
- 实用算法:从决策树到变分自编码器
掌握信息思维,你就掌握了:
- 抽象能力:看到数据背后的信息结构
- 效率意识:追求最优表示和传输
- 极限意识:知道什么可能,什么不可能
- 统一视角:连接通信、计算和认知
小小猪的体会:原来信息可以像物理量一样精确度量!
小海豹的反思:信息论让我理解了学习的本质是从数据中提取信息。
下一章预告:我们将学习线性模型,这是机器学习的基础,也是理解复杂模型的起点。
