⚠️ Alpha内测版本警告:此为早期内部构建版本,尚不完整且可能存在错误,欢迎大家提Issue反馈问题或建议。
Skip to content

第1章 统计学习方法概论

习题1.1

  说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

解答:

解答思路:

  1. 写出伯努利模型;
  2. 写出伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素;
  3. 根据伯努利模型的极大似然估计,估计结果为1的概率;
  4. 根据伯努利模型的贝叶斯估计,估计结果为1的概率。

解答步骤:

第1步:伯努利模型
  根据题意:伯努利模型是定义在取值为0与1的随机变量上的概率分布。
  对于随机变量X,则有:

P(X=1)=pP(X=0)=1p

其中,p为随机变量X取值为1的概率,1p则为取0的概率。
  由于随机变量X只有0和1两个值,X的概率分布,即伯努利模型可写为:

Pp(X=x)=px(1p)(1x),0p1

  则伯努利模型的假设空间为:

F={P|Pp(X)=px(1p)(1x),p[0,1]}

第2步:伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素
(1)极大似然估计
  模型:伯努利模型
  策略:经验风险最小化。极大似然估计,等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化。
  算法:极大化似然:argmaxpL(p|X)=argmaxpP(X|p)

(2)贝叶斯估计
  模型:伯努利模型
  策略:结构风险最小化。贝叶斯估计中的最大后验概率估计,等价于当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化。
  算法:最大化后验概率:argmaxpπ(p|X)=argmaxpP(X|p)π(p)P(X|p)π(p)dp

第3步:伯努利模型的极大似然估计

  极大似然估计的一般步骤:
  参考Wiki:https://en.wikipedia.org/wiki/Maximum_likelihood_estimation

  1. 写出随机变量的概率分布函数;
  2. 写出似然函数;
  3. 对似然函数取对数,得到对数似然函数,并进行化简;
  4. 对参数进行求导,并令导数等于0;
  5. 求解似然函数方程,得到参数的值。

  对于伯努利模型n次独立的数据生成结果,其中k次的结果为1,可得似然函数为:

L(p|X)=P(X|p)=i=1nP(x(i)|p)=pk(1p)nk

  对似然函数取对数,得到对数似然函数为:

logL(p|X)=logpk(1p)nk=log(pk)+log((1p)nk)=klogp+(nk)log(1p)

  求解参数p

p^=argmaxpL(p|X)=argmaxp[klogp+(nk)log(1p)]

  对参数p求导,并求解导数为0时的p值:

logL(p)p=kpnk1p=k(1p)p(nk)p(1p)=knpp(1p)

  令logL(p)p=0,从上式可得,knp=0,即p=kn
  所以P(X=1)=kn

第4步:伯努利模型的贝叶斯估计

解法一:求最大后验估计

  贝叶斯估计(最大后验估计)的一般步骤:
  参考Wiki:https://en.wikipedia.org/wiki/Maximum_a_posteriori_estimation

  1. 确定参数θ的先验概率p(θ)
  2. 根据样本集D={x1,x2,,xn},计算似然函数P(D|θ)P(D|θ)=i=1nP(xi|θ)
  3. 利用贝叶斯公式,写出后验概率最大化公式:
argmaxθP(θ|D)=argmaxθP(D|θ)P(θ)ΘP(D|θ)P(θ)dθ=argmaxθP(D|θ)P(θ)
  1. 利用求导,得到后验概率最大时的参数取值

  对于伯努利模型的参数p,根据贝叶斯估计,该参数也是随机变量。
  假设p的先验分布π(p)为均匀分布,则最大后验概率估计等价于极大似然估计。
  一般在贝叶斯估计中,如果后验分布与先验分布属于同一分布簇(共轭分布),则称此先验分布为似然函数的共轭先验。

  参考极大似然估计和贝叶斯估计

选取共轭先验有如下好处,例如:
(1)符合直观,先验分布和后验分布应该是相同形式的;
(2)可以给出后验分布的解析形式;
(3)可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

  伯努利分布的先验分布为Beta分布,则此处假设先验分布π(p)为Beta分布。

补充知识:Beta分布
来源维基百科:https://zh.wikipedia.org/wiki/Β分布
  Beta 分布(Beta distribution),是指一组定义在(0,1)区间的连续概率分布,亦称Β分布。有两个参数α,β>0
概率密度函数:f(x;α,β)=1B(α,β)x(α1)(1x)β1
其中B(α,β)是Beta函数,亦称Β函数。B(α,β)=01xα1(1x)β1dx
随机变量X服从参数为α,β的Beta分布记作:XBe(α,β)
期望:E(X)=αα+β
与均匀分布关系:当α=1,β=1时,Beta分布就是一个均匀分布

  p的先验分布为:

π(p)=1B(α,β)p(α1)(1p)β1

  似然函数与第3步相同:

L(p|X)=P(X|p)=i=1nP(x(i)|p)=pk(1p)nk

  最大化后验概率,求解参数p

p^=argmaxpP(X|p)π(p)P(X|p)π(p)dp=argmaxpP(X|p)π(p)=argmaxppk(1p)nk1B(α,β)p(α1)(1p)β1=argmaxp1B(α,β)pk+α1(1p)nk+β1

  令g(p)=1B(α,β)pk+α1(1p)nk+β1,对函数g(p)先取对数,再对p求导,得

logg(p)p=1B(α,β)(k+α1pnk+β11p)

  令上式等于0,得p^=k+α1n+α+β2,其中α,β为beta分布的参数。

  所以最大后验概率估计得到P(X=1)=k+α1n+α+β2

解法二:求后验概率分布的期望

  后验概率分布的期望求解
  参考Wiki(英文):https://en.wikipedia.org/wiki/Bayes_estimator

  贝叶斯估计中的最大后验概率估计,得到的是模型参数θ这个随机变量的后验分布的众数,通常被认为是点估计。而贝叶斯方法的特点是使用分布来总结数据和得出推论,因此贝叶斯方法倾向于得到后验均值或中值,以及可信区间。
  贝叶斯估计,利用后验分布的期望(均值)作为参数的估计值的方法,前两步与最大后验概率估计相同,第3、4步如下:
3. 利用贝叶斯公式,求θ的后验概率:P(θ|D)=P(D|θ)P(θ)ΘP(D|θ)P(θ)dθ
4. 计算后验概率分布参数θ的期望,并求出贝叶斯估计值:θ^=ΘθP(θ|D)dθ

  已知似然函数和参数p的先验分布,参数p的后验分布为:

P(p|X)=P(X|p)π(p)P(X|p)π(p)dp=1B(α,β)pk+α1(1p)nk+β11B(α,β)pk+α1(1p)nk+β1dp=pk+α1(1p)nk+β1pk+α1(1p)nk+β1dp=1B(k+α,nk+β)pk+α1(1p)nk+β1Be(k+α,nk+β)

  后验概率分布的期望:

Ep(p|X)=Ep(Be(k+α,nk+β))=k+α(k+α)+(nk+β)=k+αn+α+β

  则以参数的后验概率分布的期望作为贝叶斯估计的参数值:

p^=k+αn+α+β

  所以贝叶斯估计得到P(X=1)=k+αn+α+β

习题1.2

  通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

解答:

解答思路:

  1. 根据经验风险最小化定义,写出目标函数;
  2. 根据对数损失函数,对目标函数进行整理;
  3. 根据似然函数定义和极大似然估计的一般步骤(计算时需要取对数),可得到结论。

解答步骤:
  假设模型的条件概率分布是Pθ(Y|X),样本集D={(x1,y1),(x2,y2),,(xN,yN)},根据书中第17页公式(1.12),对数损失函数为:

L(Y,P(Y|X))=logP(Y|X)

  根据书中第18页公式(1.15),按照经验风险最小化求最优模型就是求解最优化问题:

minfF1Ni=1NL(yi,f(xi))

  结合上述两个式子,可得经验风险最小化函数:

argminfF1Ni=1NL(yi,f(xi))=argminfF1ND[logP(Y|X)]=argmaxfF1NDlogP(Y|X)=argmaxfF1NlogDP(Y|X)=1NargmaxfFlogDP(Y|X)

  根据似然函数定义:L(θ)=DPθ(Y|X),以及极大似然估计的一般步骤,可得:

argminfF1Ni=1NL(yi,f(xi))=1NargmaxfFlogL(θ)

  即经验风险最小化等价于极大似然估计,得证。

参考文献

【1】极大似然估计的一般步骤(来源于Wiki百科):https://en.wikipedia.org/wiki/Maximum_likelihood_estimation
【2】贝叶斯估计(最大后验估计)的一般步骤(来源于Wiki百科):https://en.wikipedia.org/wiki/Maximum_a_posteriori_estimation
【3】极大似然估计和贝叶斯估计(来源于知乎):https://zhuanlan.zhihu.com/p/61593112
【4】Beta分布(来源于Wiki百科):https://zh.wikipedia.org/wiki/Β分布
【5】后验概率分布的期望求解(来源于Wiki百科):https://en.wikipedia.org/wiki/Bayes_estimator