Alpha内测版本警告:此为早期内部构建版本,尚不完整且可能存在错误,欢迎大家提Issue反馈问题或建议。
Skip to content

统计学基础——从数据中学习

兔狲教授的提示:数据是现代世界的石油,统计学是提炼数据的炼油厂。从描述数据特征到推断总体规律,统计学为我们提供了从有限样本认识无限总体的科学方法。在人工智能时代,统计学是机器学习的数学基础。

词条1:描述性统计

官方解释

描述性统计:用统计量概括和描述数据特征。

集中趋势度量

  1. 均值x¯=1ni=1nxi
  2. 中位数:排序后中间的值(或中间两个值的平均)
  3. 众数:出现频率最高的值

离散程度度量

  1. 方差s2=1n1i=1n(xix¯)2
  2. 标准差s=s2
  3. 四分位距IQR=Q3Q1(第三四分位数减第一四分位数)

分布形状度量

  1. 偏度:分布不对称程度
  2. 峰度:分布尖锐程度

兔狲老师解释

描述性统计是'数据的快照'。

小小猪举了个例子:班级考试成绩:

  • 分数:65, 70, 75, 80, 85, 90, 95, 100, 100, 100
  • 均值:x¯=86
  • 中位数:87.5(85和90的平均)
  • 众数:100(出现3次)
  • 标准差:约13.2
  • 四分位距:Q1=75Q3=97.5IQR=22.5

箱线图:显示最小值、Q1、中位数、Q3、最大值。

数据可视化

  • 直方图:显示数据分布
  • 箱线图:显示五数概括和异常值
  • 散点图:显示两个变量关系
  • 热力图:显示矩阵数据

思考题1:动手题

问题:对数据集 {2,4,4,4,5,5,7,9}

  1. 计算均值、中位数、众数
  2. 计算方差和标准差
  3. 计算 Q1Q3IQR
  4. 判断分布形状(偏度)

思考题2:动脑题

问题:均值、中位数、众数各有什么优缺点?在什么情况下用哪个?

思考方向:

  • 对异常值的敏感性
  • 数据类型(连续、离散、分类)
  • 分布形状的影响

词条2:统计推断基础

官方解释

统计推断:从样本推断总体性质。

参数估计:估计总体参数(如均值 μ、方差 σ2)。

  • 点估计:单个数值估计
  • 区间估计:包含参数的区间

假设检验:检验关于总体的假设。

  • 零假设 H0:要检验的假设
  • 备择假设 H1:对立假设
  • 显著性水平 α:拒绝真 H0 的最大概率
  • p:在 H0 下观察到当前或更极端结果的概率

兔狲老师解释

统计推断是'从部分看整体'。

小海豹举了个例子:药效检验:

  • H0:新药无效(与安慰剂效果相同)
  • H1:新药有效
  • 实验:两组病人,一组用新药,一组用安慰剂
  • 检验:比较两组恢复情况
  • 结果:如果 p 值很小(如 <0.05),拒绝 H0,认为新药有效

估计量性质

  • 无偏性E[估计量]= 参数
  • 一致性:样本量增大时收敛于参数
  • 有效性:方差小
  • 充分性:包含样本中所有关于参数的信息

思考题1:动手题

问题:设 X1,,XnN(μ,σ2)σ2 已知:

  1. 证明样本均值 X¯μ 的无偏估计
  2. X¯ 的方差
  3. 构造 μ 的95%置信区间

问题:进行 t 检验:样本均值 =105,样本标准差 =10,样本量 =25,检验 H0:μ=100 vs H1:μ>100α=0.05

思考题2:动脑题

问题:p 值经常被误解,正确的理解是什么?滥用 p 值有什么问题?

思考方向:

  • p 值不是"H0 为真的概率"
  • p 值不是"效应大小"
  • 重复检验问题
  • 在科学研究中的争议

词条3:参数估计方法

官方解释

最大似然估计(MLE):选择使观测数据概率最大的参数。

θ^MLE=argmaxθL(θ;x)=argmaxθi=1nf(xi|θ)

贝叶斯估计:将参数视为随机变量,用后验分布估计。 后验分布 似然函数 × 先验分布

矩估计:令样本矩等于理论矩,解方程得参数估计。

兔狲老师解释

不同估计方法,不同哲学。

兔狲教授举例说:估计硬币正面概率 p

  • MLE:如果抛10次得7正3反,p^MLE=7/10=0.7
  • 贝叶斯:如果先验认为 p0.5,后验可能在0.6左右
  • 矩估计:一阶矩 E[X]=p,样本矩 x¯=0.7,所以 p^=0.7

MLE性质

  • 通常是一致的
  • 渐近正态分布
  • 渐近有效(达到Cramér-Rao下界)
  • 可能是有偏的

贝叶斯优势

  • 自然地包含先验知识
  • 给出完整的后验分布,不只是点估计
  • 避免过拟合(通过先验正则化)

思考题1:动手题

问题:设 X1,,XnExp(λ),求 λ 的MLE。 问题:设 XBinom(n,p),已知先验 pBeta(α,β),求后验分布。

问题:比较MLE和贝叶斯估计:从 N(μ,1) 中抽 n 个样本,先验 μN(0,τ2),求后验均值和MLE。

思考题2:动脑题

问题:频率派和贝叶斯派的根本分歧是什么?在实际应用中如何选择?

思考方向:

  • 参数的本质:固定值 vs 随机变量
  • 概率的解释:频率 vs 信念
  • 计算复杂性
  • 可解释性

词条4:假设检验详解

官方解释

检验步骤

  1. 设定 H0H1
  2. 选择检验统计量 T
  3. 确定拒绝域 R(使 P(TR|H0)α
  4. 收集数据,计算 T
  5. 如果 TR,拒绝 H0;否则不拒绝

错误类型

  • 第一类错误:拒绝真 H0(假阳性),概率 =α
  • 第二类错误:不拒绝假 H0(假阴性),概率 =β
  • 功效1β,拒绝假 H0 的概率

常见检验

  • z 检验:方差已知的正态总体均值检验
  • t 检验:方差未知的正态总体均值检验
  • χ2 检验:方差检验、拟合优度检验
  • F 检验:方差比检验

兔狲老师解释

假设检验是'统计审判'。

小小猪的比喻:H0:被告无罪

  • 证据:样本数据
  • 标准:'合理怀疑'(α=0.05
  • 判决:如果 p<0.05,拒绝 H0(定罪)
  • 错误:冤枉好人(第一类错误)或放过坏人(第二类错误)

多重检验问题

  • 检验多个假设时,至少犯一个第一类错误的概率增加
  • 校正方法:Bonferroni校正、FDR控制
  • 在基因组学、神经科学中特别重要

思考题1:动手题

问题:进行配对 t 检验: 治疗前后数据:前 =(10,12,8,15,9),后 =(12,14,10,16,11) 检验 H0:μdiff=0 vs H1:μdiff>0α=0.05

问题:进行 χ2 拟合优度检验: 观察频数:红球30,白球20,蓝球10 理论比例:红:白:蓝 =2:2:1 检验是否符合理论分布,α=0.05

思考题2:动脑题

问题:"不拒绝 H0"为什么不等于"接受 H0"?这有什么重要含义?

思考方向:

  • 证明不存在 vs 证明存在
  • 统计检验的逻辑结构
  • 在科学发现中的意义

词条5:回归分析

官方解释

线性回归yi=β0+β1xi+εiεiN(0,σ2)

最小二乘估计β^=argminβi=1n(yiβ0β1xi)2

解:β^1=(xix¯)(yiy¯)(xix¯)2β^0=y¯β^1x¯

逻辑回归:用于分类,P(y=1|x)=11+e(β0+β1x)

兔狲老师解释

回归是'用变量解释变量'。

小海豹举了个例子:身高和体重关系:

  • 数据:n 个人的身高 (x) 和体重 (y)
  • 模型:体重 β0+β1× 身高
  • 解释:β1 是身高每增加1厘米,体重平均增加 β1 公斤
  • 预测:给定身高,预测体重

模型评估

  • R2:解释的变异比例,0R21
  • 残差分析:检查模型假设
  • 交叉验证:评估预测性能

正则化

  • 岭回归:L2正则化,防止过拟合
  • LASSO:L1正则化,特征选择
  • 弹性网:结合L1和L2

思考题1:动手题

问题:对数据 (x,y)={(1,2),(2,3),(3,5),(4,4),(5,6)}

  1. 计算线性回归系数
  2. 计算 R2
  3. 预测 x=6 时的 y
  4. 计算残差

问题:用梯度下降法求解逻辑回归参数。

思考题2:动脑题

问题:线性回归的假设有哪些?如果违反这些假设怎么办?

思考方向:

  • 线性关系假设
  • 误差独立同分布假设
  • 同方差性假设
  • 正态性假设
  • 诊断和补救方法

词条6:统计学在AI中的应用

官方解释

机器学习:从数据中学习模式的统计方法。

监督学习:有标签数据,学习输入到输出的映射。

  • 回归:连续输出
  • 分类:离散输出

无监督学习:无标签数据,发现数据内在结构。

  • 聚类:分组相似数据
  • 降维:减少变量数

强化学习:通过试错学习最优策略。

兔狲老师解释

统计学是AI的'学习引擎'。

兔狲教授举例说:垃圾邮件分类:

  • 问题:二分类(垃圾邮件/正常邮件)
  • 方法:逻辑回归、朴素贝叶斯、SVM
  • 评估:准确率、精确率、召回率、F1分数

客户细分:

  • 问题:无监督聚类
  • 方法:K-means、层次聚类
  • 应用:个性化推荐

异常检测:

  • 问题:发现异常模式
  • 方法:统计检验、孤立森林
  • 应用:欺诈检测、故障预警

统计学习理论

  • 偏差-方差权衡:模型复杂度选择
  • VC维:模型复杂度度量
  • 泛化误差界:保证测试性能

思考题1:动手题

问题:实现K-means聚类算法:

  1. 随机初始化 K 个中心
  2. 分配每个点到最近中心
  3. 更新中心为簇内点的均值
  4. 重复直到收敛

问题:计算分类器的评估指标: 混淆矩阵:TP=80FP=20FN=30TN=70 计算准确率、精确率、召回率、F1分数。

思考题2:动脑题

问题:统计学和机器学习是什么关系?传统统计方法和现代机器学习方法各有什么优势和局限?

思考方向:

  • 模型复杂度 vs 数据量
  • 可解释性 vs 预测性能
  • 参数方法 vs 非参数方法
  • 频率派方法 vs 贝叶斯方法

总结:从数据到知识

兔狲教授总结道:统计学是数据科学的语言:

  1. 描述:用统计量概括数据特征
  2. 推断:从样本认识总体
  3. 预测:用模型预测未来
  4. 决策:在不确定性下做出最优选择

在AI中,统计学提供了:

  • 学习算法:从数据中提取模式
  • 评估方法:量化模型性能
  • 理论保证:理解算法为什么有效
  • 实践指南:避免常见陷阱

掌握统计学,你就掌握了从数据中提取知识的科学方法。

小小猪的体会:原来数据不是数字的堆砌,而是有待解读的故事!

小海豹的反思:统计思维让我更谨慎地对待数据和结论。

下一章预告:我们将学习优化理论,这是AI中寻找最优参数的核心数学工具。