统计学基础——从数据中学习

兔狲教授的提示：数据是现代世界的石油，统计学是提炼数据的炼油厂。从描述数据特征到推断总体规律，统计学为我们提供了从有限样本认识无限总体的科学方法。在人工智能时代，统计学是机器学习的数学基础。

词条1：描述性统计

官方解释

描述性统计：用统计量概括和描述数据特征。

集中趋势度量：

均值： $\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$
中位数：排序后中间的值（或中间两个值的平均）
众数：出现频率最高的值

离散程度度量：

方差： $s^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}$
标准差： $s = \sqrt{s^{2}}$
四分位距： $IQR = Q_{3} - Q_{1}$ （第三四分位数减第一四分位数）

分布形状度量：

偏度：分布不对称程度
峰度：分布尖锐程度

兔狲老师解释

描述性统计是'数据的快照'。

小小猪举了个例子：班级考试成绩：

分数：65, 70, 75, 80, 85, 90, 95, 100, 100, 100
均值： $\bar{x} = 86$
中位数：87.5（85和90的平均）
众数：100（出现3次）
标准差：约13.2
四分位距： $Q_{1} = 75$ ， $Q_{3} = 97.5$ ， $IQR = 22.5$

箱线图：显示最小值、 $Q_{1}$ 、中位数、 $Q_{3}$ 、最大值。

数据可视化：

直方图：显示数据分布
箱线图：显示五数概括和异常值
散点图：显示两个变量关系
热力图：显示矩阵数据

思考题1：动手题

问题：对数据集 ${2, 4, 4, 4, 5, 5, 7, 9}$ ：

计算均值、中位数、众数
计算方差和标准差
计算 $Q_{1}$ 、 $Q_{3}$ 和 $IQR$
判断分布形状（偏度）

思考题2：动脑题

问题：均值、中位数、众数各有什么优缺点？在什么情况下用哪个？

思考方向：

对异常值的敏感性
数据类型（连续、离散、分类）
分布形状的影响

词条2：统计推断基础

官方解释

统计推断：从样本推断总体性质。

参数估计：估计总体参数（如均值 $μ$ 、方差 $σ^{2}$ ）。

点估计：单个数值估计
区间估计：包含参数的区间

假设检验：检验关于总体的假设。

零假设 $H_{0}$ ：要检验的假设
备择假设 $H_{1}$ ：对立假设
显著性水平 $α$ ：拒绝真 $H_{0}$ 的最大概率
$p$ 值：在 $H_{0}$ 下观察到当前或更极端结果的概率

兔狲老师解释

统计推断是'从部分看整体'。

小海豹举了个例子：药效检验：

$H_{0}$ ：新药无效（与安慰剂效果相同）
$H_{1}$ ：新药有效
实验：两组病人，一组用新药，一组用安慰剂
检验：比较两组恢复情况
结果：如果 $p$ 值很小（如 $< 0.05$ ），拒绝 $H_{0}$ ，认为新药有效

估计量性质：

无偏性： $E [估计量] =$ 参数
一致性：样本量增大时收敛于参数
有效性：方差小
充分性：包含样本中所有关于参数的信息

思考题1：动手题

问题：设 $X_{1}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $σ^{2}$ 已知：

证明样本均值 $\bar{X}$ 是 $μ$ 的无偏估计
求 $\bar{X}$ 的方差
构造 $μ$ 的95%置信区间

问题：进行 $t$ 检验：样本均值 $= 105$ ，样本标准差 $= 10$ ，样本量 $= 25$ ，检验 $H_{0} : μ = 100$ vs $H_{1} : μ > 100$ ， $α = 0.05$ 。

思考题2：动脑题

问题： $p$ 值经常被误解，正确的理解是什么？滥用 $p$ 值有什么问题？

思考方向：

$p$ 值不是" $H_{0}$ 为真的概率"
$p$ 值不是"效应大小"
重复检验问题
在科学研究中的争议

词条3：参数估计方法

官方解释

最大似然估计（MLE）：选择使观测数据概率最大的参数。

{\hat{θ}}_{M L E} = \arg max_{θ} L (θ; x) = \arg max_{θ} \prod_{i = 1}^{n} f (x_{i} | θ)

贝叶斯估计：将参数视为随机变量，用后验分布估计。后验分布 $\propto$ 似然函数 $\times$ 先验分布

矩估计：令样本矩等于理论矩，解方程得参数估计。

兔狲老师解释

不同估计方法，不同哲学。

兔狲教授举例说：估计硬币正面概率 $p$ ：

MLE：如果抛10次得7正3反， ${\hat{p}}_{M L E} = 7 / 10 = 0.7$
贝叶斯：如果先验认为 $p \approx 0.5$ ，后验可能在0.6左右
矩估计：一阶矩 $E [X] = p$ ，样本矩 $\bar{x} = 0.7$ ，所以 $\hat{p} = 0.7$

MLE性质：

通常是一致的
渐近正态分布
渐近有效（达到Cramér-Rao下界）
可能是有偏的

贝叶斯优势：

自然地包含先验知识
给出完整的后验分布，不只是点估计
避免过拟合（通过先验正则化）

思考题1：动手题

问题：设 $X_{1}, \dots, X_{n} \sim Exp (λ)$ ，求 $λ$ 的MLE。问题：设 $X \sim Binom (n, p)$ ，已知先验 $p \sim Beta (α, β)$ ，求后验分布。

问题：比较MLE和贝叶斯估计：从 $N (μ, 1)$ 中抽 $n$ 个样本，先验 $μ \sim N (0, τ^{2})$ ，求后验均值和MLE。

思考题2：动脑题

问题：频率派和贝叶斯派的根本分歧是什么？在实际应用中如何选择？

思考方向：

参数的本质：固定值 vs 随机变量
概率的解释：频率 vs 信念
计算复杂性
可解释性

词条4：假设检验详解

官方解释

检验步骤：

设定 $H_{0}$ 和 $H_{1}$
选择检验统计量 $T$
确定拒绝域 $R$ （使 $P (T \in R | H_{0}) \leq α$ ）
收集数据，计算 $T$
如果 $T \in R$ ，拒绝 $H_{0}$ ；否则不拒绝

错误类型：

第一类错误：拒绝真 $H_{0}$ （假阳性），概率 $= α$
第二类错误：不拒绝假 $H_{0}$ （假阴性），概率 $= β$
功效： $1 - β$ ，拒绝假 $H_{0}$ 的概率

常见检验：

$z$ 检验：方差已知的正态总体均值检验
$t$ 检验：方差未知的正态总体均值检验
$χ^{2}$ 检验：方差检验、拟合优度检验
$F$ 检验：方差比检验

兔狲老师解释

假设检验是'统计审判'。

小小猪的比喻： $H_{0}$ ：被告无罪

证据：样本数据
标准：'合理怀疑'（ $α = 0.05$ ）
判决：如果 $p$ 值 $< 0.05$ ，拒绝 $H_{0}$ （定罪）
错误：冤枉好人（第一类错误）或放过坏人（第二类错误）

多重检验问题：

检验多个假设时，至少犯一个第一类错误的概率增加
校正方法：Bonferroni校正、FDR控制
在基因组学、神经科学中特别重要

思考题1：动手题

问题：进行配对 $t$ 检验：治疗前后数据：前 $= (10, 12, 8, 15, 9)$ ，后 $= (12, 14, 10, 16, 11)$ 检验 $H_{0} : μ_{d i f f} = 0$ vs $H_{1} : μ_{d i f f} > 0$ ， $α = 0.05$ 。

问题：进行 $χ^{2}$ 拟合优度检验：观察频数：红球30，白球20，蓝球10 理论比例：红:白:蓝 $= 2 : 2 : 1$ 检验是否符合理论分布， $α = 0.05$ 。

思考题2：动脑题

问题："不拒绝 $H_{0}$ "为什么不等于"接受 $H_{0}$ "？这有什么重要含义？

思考方向：

证明不存在 vs 证明存在
统计检验的逻辑结构
在科学发现中的意义

词条5：回归分析

官方解释

线性回归： $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ ， $ε_{i} \sim N (0, σ^{2})$

最小二乘估计： $\hat{β} = \arg min_{β} \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}$

解： ${\hat{β}}_{1} = \frac{\sum (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sum (x_{i} - \bar{x})^{2}}$ ， ${\hat{β}}_{0} = \bar{y} - {\hat{β}}_{1} \bar{x}$

逻辑回归：用于分类， $P (y = 1 | x) = \frac{1}{1 + e^{- (β_{0} + β_{1} x)}}$

兔狲老师解释

回归是'用变量解释变量'。

小海豹举了个例子：身高和体重关系：

数据： $n$ 个人的身高 $(x)$ 和体重 $(y)$
模型：体重 $\approx β_{0} + β_{1} \times$ 身高
解释： $β_{1}$ 是身高每增加1厘米，体重平均增加 $β_{1}$ 公斤
预测：给定身高，预测体重

模型评估：

$R^{2}$ ：解释的变异比例， $0 \leq R^{2} \leq 1$
残差分析：检查模型假设
交叉验证：评估预测性能

正则化：

岭回归：L2正则化，防止过拟合
LASSO：L1正则化，特征选择
弹性网：结合L1和L2

思考题1：动手题

问题：对数据 $(x, y) = {(1, 2), (2, 3), (3, 5), (4, 4), (5, 6)}$ ：

计算线性回归系数
计算 $R^{2}$
预测 $x = 6$ 时的 $y$
计算残差

问题：用梯度下降法求解逻辑回归参数。

思考题2：动脑题

问题：线性回归的假设有哪些？如果违反这些假设怎么办？

思考方向：

线性关系假设
误差独立同分布假设
同方差性假设
正态性假设
诊断和补救方法

词条6：统计学在AI中的应用

官方解释

机器学习：从数据中学习模式的统计方法。

监督学习：有标签数据，学习输入到输出的映射。

回归：连续输出
分类：离散输出

无监督学习：无标签数据，发现数据内在结构。

聚类：分组相似数据
降维：减少变量数

强化学习：通过试错学习最优策略。

兔狲老师解释

统计学是AI的'学习引擎'。

兔狲教授举例说：垃圾邮件分类：

问题：二分类（垃圾邮件/正常邮件）
方法：逻辑回归、朴素贝叶斯、SVM
评估：准确率、精确率、召回率、F1分数

客户细分：

问题：无监督聚类
方法：K-means、层次聚类
应用：个性化推荐

异常检测：

问题：发现异常模式
方法：统计检验、孤立森林
应用：欺诈检测、故障预警

统计学习理论：

偏差-方差权衡：模型复杂度选择
VC维：模型复杂度度量
泛化误差界：保证测试性能

思考题1：动手题

问题：实现K-means聚类算法：

随机初始化 $K$ 个中心
分配每个点到最近中心
更新中心为簇内点的均值
重复直到收敛

问题：计算分类器的评估指标：混淆矩阵： $T P = 80$ ， $F P = 20$ ， $F N = 30$ ， $T N = 70$ 计算准确率、精确率、召回率、F1分数。

思考题2：动脑题

问题：统计学和机器学习是什么关系？传统统计方法和现代机器学习方法各有什么优势和局限？

思考方向：

模型复杂度 vs 数据量
可解释性 vs 预测性能
参数方法 vs 非参数方法
频率派方法 vs 贝叶斯方法

总结：从数据到知识

兔狲教授总结道：统计学是数据科学的语言：

描述：用统计量概括数据特征
推断：从样本认识总体
预测：用模型预测未来
决策：在不确定性下做出最优选择

在AI中，统计学提供了：

学习算法：从数据中提取模式
评估方法：量化模型性能
理论保证：理解算法为什么有效
实践指南：避免常见陷阱

掌握统计学，你就掌握了从数据中提取知识的科学方法。

小小猪的体会：原来数据不是数字的堆砌，而是有待解读的故事！

小海豹的反思：统计思维让我更谨慎地对待数据和结论。

下一章预告：我们将学习优化理论，这是AI中寻找最优参数的核心数学工具。

数学基础综合：从自然数到不动点理论

AI数学基础：概率统计到线性模型

哲学：从古希腊到1840年

Python编程：从语法到数据结构

统计学基础——从数据中学习

词条1：描述性统计

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条2：统计推断基础

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条3：参数估计方法

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条4：假设检验详解

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条5：回归分析

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条6：统计学在AI中的应用

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

总结：从数据到知识

数学基础综合：从自然数到不动点理论

AI数学基础：概率统计到线性模型

哲学：从古希腊到1840年

Python编程：从语法到数据结构

统计学基础——从数据中学习 ​

词条1：描述性统计 ​

官方解释 ​

兔狲老师解释 ​

思考题1：动手题 ​

思考题2：动脑题 ​

词条2：统计推断基础 ​

官方解释 ​

兔狲老师解释 ​

思考题1：动手题 ​

思考题2：动脑题 ​

词条3：参数估计方法 ​

官方解释 ​

兔狲老师解释 ​

思考题1：动手题 ​

思考题2：动脑题 ​

词条4：假设检验详解 ​

官方解释 ​

兔狲老师解释 ​

思考题1：动手题 ​

思考题2：动脑题 ​

词条5：回归分析 ​

官方解释 ​

兔狲老师解释 ​

思考题1：动手题 ​

思考题2：动脑题 ​

词条6：统计学在AI中的应用 ​

官方解释 ​

兔狲老师解释 ​

思考题1：动手题 ​

思考题2：动脑题 ​

总结：从数据到知识 ​

统计学基础——从数据中学习

词条1：描述性统计

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条2：统计推断基础

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条3：参数估计方法

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条4：假设检验详解

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条5：回归分析

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

词条6：统计学在AI中的应用

官方解释

兔狲老师解释

思考题1：动手题

思考题2：动脑题

总结：从数据到知识