第20章潜在狄利克雷分配

习题20.1

推导狄利克雷分布数学期望公式。

解答：

解答思路：

给出狄利克雷分布
写出狄利克雷分布的数学期望计算公式
利用概率分布的归一化性质，推导规范化因子的形式
将规范化因子代入原式，分别计算多元随机变量每个分量的期望

解答步骤：

第1步：狄利克雷分布

根据书中第20章的定义20.2的狄利克雷分布的定义：

定义20.2（狄利克雷分布） 若多元连续随机变量 $θ = (θ_{1}, θ_{2}, \dots, θ_{k})$ 的概率密度函数为
$\begin{matrix} (20.2) & p (θ | α) = \frac{Γ (\sum_{i = 1}^{k} α_{i})}{\prod_{i = 1}^{k} Γ (α_{i})} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} \end{matrix}$
其中 $\sum_{i = 1}^{k} θ_{i} = 1, θ_{i} ⩾ 0, α = (α_{1}, α_{2}, \dots, α_{k}), α_{i} > 0, i = 1, 2, \dots, k$ ，则称随机变量 $θ$ 服从参数为 $α$ 的狄利克雷分布，记作 $θ \sim Dir (α)$ 。
令
$\begin{matrix} (20.3) & B (α) = \frac{\prod_{i = 1}^{k} Γ (α_{i})}{Γ (\sum_{i = 1}^{k} α_{i})} \end{matrix}$
则狄利克雷分布的密度函数可以写成
$\begin{matrix} (20.4) & p (θ | α) = \frac{1}{B (α)} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} \end{matrix}$

第2步：写出狄利克雷分布的数学期望计算公式

已知概率分布 $p (x)$ 数学期望的计算公式，即函数 $x$ 在概率分布 $p (x)$ 下的期望： $E [p (x)] = \int x \cdot p (x) d x$ 。

可得，狄利克雷分布的数学期望

E [p (θ | α)] = \int θ \cdot p (θ | α) d θ = \int θ \cdot \frac{1}{B (α)} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} d θ

其中，多元连续随机变量 $θ = (θ_{1}, θ_{2}, \dots, θ_{k}), α = (α_{1}, α_{2}, \dots, α_{k})$

分别计算 $θ$ 在每个分量上的期望，即

E [p (θ | α)] = (E [p (θ_{1} | α)], E [p (θ_{2} | α)], \dots, E [p (θ_{k} | α)])

第3步：利用概率分布的归一化性质，推导规范化因子的形式

对于每个分量 $θ_{i}$ 的期望：

\begin{matrix} (1) & \begin{aligned} E [p (θ_{i} | α)] & = \int θ_{i} \cdot \frac{1}{B (α)} \prod_{j = 1}^{k} θ_{j}^{α_{j} - 1} d θ_{i} \\ = \frac{1}{B (α)} \int θ_{1}^{α_{1} - 1} θ_{2}^{α_{2} - 1} \dots θ_{i}^{α_{i}} \dots θ_{k}^{α_{k} - 1} d θ_{i} \end{aligned} \end{matrix}

记上式右边的积分部可对应如下狄利克雷分布的密度函数

\begin{aligned} p (θ_{i} | α^{'}) & = \frac{1}{B (α^{'})} θ_{1}^{α_{1} - 1} θ_{2}^{α_{2} - 1} \dots θ_{i}^{α_{i}} \dots θ_{k}^{α_{k} - 1} \\ = \frac{Γ (α_{1} + α_{2} + \dots + α_{i} + 1 + \dots + α_{k})}{Γ (α_{1}) Γ (α_{2}) \dots Γ (α_{i} + 1) \dots Γ (α_{k})} θ_{1}^{α_{1} - 1} θ_{2}^{α_{2} - 1} \dots θ_{i}^{α_{i}} \dots θ_{k}^{α_{k} - 1} \end{aligned}

其中 $α^{'} = (α_{1}, α_{2}, \dots, α_{i} + 1, \dots, α_{k})$

根据归一化条件：

\int p (θ_{i} | α^{'}) d θ = 1

可得：

\begin{matrix} (2) & B (α^{'}) = \int θ_{1}^{α_{1} - 1} θ_{2}^{α_{2} - 1} \dots θ_{i}^{α_{i}} \dots θ_{k}^{α_{k} - 1} d θ \end{matrix}

第3步：将规范化因子代入原式，分别计算多元随机变量每个分量的期望。

将公式（2）代入公式（1），可得分量 $θ_{i}$ 的期望：

\begin{aligned} E [p (θ_{i} | α)] & = \frac{B (α^{'})}{B (α)} \\ = \frac{Γ (α_{1}) Γ (α_{2}) \dots Γ (α_{i} + 1) \dots Γ (α_{k})}{Γ (α_{1} + α_{2} + \dots + α_{i} + 1 + \dots + α_{k})} \cdot \frac{Γ (α_{1} + α_{2} + \dots + α_{i} + \dots + α_{k})}{Γ (α_{1}) Γ (α_{2}) \dots Γ (α_{i}) \dots Γ (α_{k})} \\ = \frac{α_{i} \prod_{j = 1}^{k} Γ (α_{j})}{\sum_{j = 1}^{k} α_{j} Γ (\sum_{j = 1}^{k} α_{j})} \cdot \frac{Γ (\sum_{j = 1}^{k} α_{j})}{\prod_{j = 1}^{k} Γ (α_{j})} \\ = \frac{α_{i}}{\sum_{j = 1}^{k} α_{j}} \end{aligned}

因此，狄利克雷分布的数学期望：

\begin{aligned} E [p (θ | α)] & = (E [p (θ_{1} | α)], E [p (θ_{2} | α)], \dots, E [p (θ_{k} | α)]) \\ = (\frac{α_{1}}{\sum_{i = 1}^{k} α_{i}}, \frac{α_{2}}{\sum_{i = 1}^{k} α_{i}}, \dots, \frac{α_{k}}{\sum_{i = 1}^{k} α_{i}}) \end{aligned}

习题20.2

针对17.2.2节的文本例子，使用LDA模型进行话题分析。

解答：

解答思路：

给出LDA吉布斯抽样算法
自编程实现基于吉布斯抽样算法的LDA模型
针对17.2.2节的文本例子，使用LDA模型进行话题分析

解答步骤：

第1步：LDA吉布斯抽样算法

根据书中第20章的算法20.2的LDA吉布斯抽样算法：

算法20.2（LDA吉布斯抽样算法）
输入：文本的单词序列 $w = {w_{1}, w_{2}, \dots, w_{m}, \dots, w_{M}}, w_{m} = (w_{m 1}, w_{m 2}, \dots, w_{m n}, \dots, w_{m N_{m}})$ ；
输出：文本的话题序列 $z = {z_{1}, z_{2}, \dots, z_{m}, \dots, z_{M}}, z_{m} = (z_{m 1}, z_{m 2}, \dots, z_{m n}, \dots, z_{m N_{m}})$ 的后验概率分布 $p (z | w, α, β)$ 的样本计数，模型的参数 $φ$ 和 $θ$ 的估计值；
参数：超参数 $α$ 和 $β$ ，话题个数 $K$ 。
（1）设所有计数矩阵的元素 $n_{m k}, n_{k v}$ ，计数向量的元素 $n_{m}, n_{k}$ 初值为0；
（2）对所有文本 $w_{m}, m = 1, 2, \dots, M$ ，对第 $m$ 个文本中的所有单词 $w_{m n}, n = 1, 2, \dots, N_{m}$ ，抽样话题 $z_{m n} = z_{k} \sim Mult (\frac{1}{K})$ ；增加文本-话题计数 $n_{m k} = n_{m k} + 1$ ，增加文本-话题和计数 $n_{m} = n_{m} + 1$ ，增加话题-单词计数 $n_{k v} = n_{k v} + 1$ ，增加话题-单词和计数 $n_{k} = n_{k} + 1$ ；
（3）循环执行以下操作，直到进入燃烧期。对所有文本 $w_{m}, m = 1, 2, \dots, M$ ，对第 $m$ 个文本中的所有单词 $w_{m n}, n = 1, 2, \dots, N_{m}$ ；
  （a）当前的单词 $w_{m n}$ 是第 $v$ 个单词，话题指派 $z_{m n}$ 是第 $k$ 个话题；减少计数 $n_{m k} = n_{m k} - 1, n_{m} = n_{m} - 1, n_{k v} = n_{k v} - 1, n_{k} = n_{k} - 1$ ；
  （b）按照满条件分布进行抽样
$p (z_{i} | z_{- i}, w, α, β) \propto \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k} v + β_{v})} \cdot \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})}$
得到新的第 $k^{'}$ 个话题，分配给 $z_{m n}$ ；
  （c）增加计数 $n_{m k^{'}} = n_{m k^{'}} + 1, n_{m} = n_{m} + 1, n_{k^{'} v} = n_{k^{'} v} + 1, n_{k^{'}} = n_{k^{'}} + 1$ ；
  （d）得到更新的两个计数矩阵 $N_{K \times V} = [n_{k v}]$ 和 $N_{M \times K} = [n_{m k}]$ ，表示后验概率分布 $p (z | w, α, β)$ 的样本计数；
（4）利用得到的样本计数，计算模型参数
$θ_{m k} = \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})} φ_{k v} = \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k v} + β_{v})}$

第2步：自编程实现基于吉布斯抽样算法的LDA模型

python

import numpy as np


class GibbsSamplingLDA:
    def __init__(self, iter_max=1000):
        self.iter_max = iter_max
        self.weights_ = []

    def fit(self, words, K):
        """
        :param words: 单词-文本矩阵
        :param K: 话题个数
        :return: 文本话题序列z
        """
        # M, Nm分别为文本个数和单词个数
        words = words.T
        M, Nm = words.shape

        # 初始化超参数alpha, beta，其中alpha为文本的话题分布相关参数
        # beta为话题的单词分布相关参数
        alpha = np.array([1 / K] * K)
        beta = np.array([1 / Nm] * Nm)

        # 初始化参数theta, varphi，其中theta为文本关于话题的多项分布参数，
        # varphi为话题关于单词的多项分布参数
        theta = np.zeros([M, K])
        varphi = np.zeros([K, Nm])

        # 输出文本的话题序列z
        z = np.zeros(words.shape, dtype='int')

        # (1)设所有计数矩阵的元素n_mk、n_kv，计数向量的元素n_m、n_k初值为 0
        n_mk = np.zeros([M, K])
        n_kv = np.zeros([K, Nm])
        n_m = np.zeros(M)
        n_k = np.zeros(K)

        # (2)对所有M个文本中的所有单词进行循环
        for m in range(M):
            for v in range(Nm):
                # 如果单词v存在于文本m
                if words[m, v] != 0:
                    # (2.a)抽样话题
                    z[m, v] = np.random.choice(list(range(K)))
                    # 增加文本-话题计数
                    n_mk[m, z[m, v]] += 1
                    # 增加文本-话题和计数
                    n_m[m] += 1
                    # 增加话题-单词计数
                    n_kv[z[m, v], v] += 1
                    # 增加话题-单词和计数
                    n_k[z[m, v]] += 1

        # (3)对所有M个文本中的所有单词进行循环，直到进入燃烧期
        zi = 0
        for i in range(self.iter_max):
            for m in range(M):
                for v in range(Nm):
                    # (3.a)如果单词v存在于文本m，那么当前单词是第v个单词，
                    # 话题指派z_mv是第k个话题
                    if words[m, v] != 0:
                        # 减少计数
                        n_mk[m, z[m, v]] -= 1
                        n_m[m] -= 1
                        n_kv[z[m, v], v] -= 1
                        n_k[z[m, v]] -= 1

                        # (3.b)按照满条件分布进行抽样
                        max_zi_value, max_zi_index = -float('inf'), z[m, v]
                        for k in range(K):
                            zi = ((n_kv[k, v] + beta[v]) / (n_kv[k, :].sum() + beta.sum())) * \
                                 ((n_mk[m, k] + alpha[k]) / (n_mk[m, :].sum() + alpha.sum()))

                        # 得到新的第 k‘个话题，分配给 z_mv
                        if max_zi_value < zi:
                            max_zi_value, max_zi_index = zi, k
                            z[m, v] = max_zi_index

                        # (3.c) (3.d)增加计数并得到两个更新的计数矩阵的n_kv和n_mk
                        n_mk[m, z[m, v]] += 1
                        n_m[m] += 1
                        n_kv[z[m, v], v] += 1
                        n_k[z[m, v]] += 1

        # (4)利用得到的样本计数，计算模型参数
        for m in range(M):
            for k in range(K):
                theta[m, k] = (n_mk[m, k] + alpha[k]) / (n_mk[m, :].sum() + alpha.sum())

        for k in range(K):
            for v in range(Nm):
                varphi[k, v] = (n_kv[k, v] + beta[v]) / (n_kv[k, :].sum() + beta.sum())

        self.weights_ = [varphi, theta]
        return z.T, n_kv, n_mk

第3步：针对17.2.2节的文本例子，使用LDA模型进行话题分析

17.2.2节的文本例子中的数据如下：

使用LDA模型进行话题分析：

python

gibbs_sampling_lda = GibbsSamplingLDA(iter_max=1000)

# 输入文本-单词矩阵，共有9个文本，11个单词
words = np.array([[0, 0, 1, 1, 0, 0, 0, 0, 0],
                  [0, 0, 0, 0, 0, 1, 0, 0, 1],
                  [0, 1, 0, 0, 0, 0, 0, 1, 0],
                  [0, 0, 0, 0, 0, 0, 1, 0, 1],
                  [1, 0, 0, 0, 0, 1, 0, 0, 0],
                  [1, 1, 1, 1, 1, 1, 1, 1, 1],
                  [1, 0, 1, 0, 0, 0, 0, 0, 0],
                  [0, 0, 0, 0, 0, 0, 1, 0, 1],
                  [0, 0, 0, 0, 0, 2, 0, 0, 1],
                  [1, 0, 1, 0, 0, 0, 0, 1, 0],
                  [0, 0, 0, 1, 1, 0, 0, 0, 0]])

K = 3  # 假设话题数量为3

# 设置精度为3
np.set_printoptions(precision=3, suppress=True)

z, n_kv, n_mk = gibbs_sampling_lda.fit(words, K)
varphi = gibbs_sampling_lda.weights_[0]
theta = gibbs_sampling_lda.weights_[1]

print("文本的话题序列z：")
print(z)
print("样本的计数矩阵N_KV：")
print(n_kv)
print("样本的计数矩阵N_MK：")
print(n_mk)
print("模型参数varphi：")
print(varphi)
print("模型参数theta：")
print(theta)

文本的话题序列z：
[[0 0 2 2 0 0 0 0 0]
 [0 0 0 0 0 2 0 0 2]
 [0 2 0 0 0 0 0 2 0]
 [0 0 0 0 0 0 2 0 2]
 [2 0 0 0 0 2 0 0 0]
 [2 2 2 2 2 2 2 2 2]
 [2 0 2 0 0 0 0 0 0]
 [0 0 0 0 0 0 2 0 2]
 [0 0 0 0 0 2 0 0 2]
 [2 0 2 0 0 0 0 2 0]
 [0 0 0 2 2 0 0 0 0]]
样本的计数矩阵N_KV：
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [2. 2. 2. 2. 2. 9. 2. 2. 2. 3. 2.]]
样本的计数矩阵N_MK：
[[0. 0. 4.]
 [0. 0. 2.]
 [0. 0. 4.]
 [0. 0. 3.]
 [0. 0. 2.]
 [0. 0. 4.]
 [0. 0. 3.]
 [0. 0. 3.]
 [0. 0. 5.]]
模型参数varphi：
[[0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091]
 [0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091]
 [0.067 0.067 0.067 0.067 0.067 0.293 0.067 0.067 0.067 0.1   0.067]]
模型参数theta：
[[0.067 0.067 0.867]
 [0.111 0.111 0.778]
 [0.067 0.067 0.867]
 [0.083 0.083 0.833]
 [0.111 0.111 0.778]
 [0.067 0.067 0.867]
 [0.083 0.083 0.833]
 [0.083 0.083 0.833]
 [0.056 0.056 0.889]]

习题20.3

找出LDA的吉布斯抽样算法、变分EM算法中利用狄利克雷分布的部分，思考LDA中使用狄利克雷分布的重要性。

解答：

解答思路：

写出LDA的吉布斯抽样算法中利用狄利克雷分布的部分
写出变分EM算法中利用狄利克雷分布的部分
写出LDA中使用狄利克雷分布的重要性

解答步骤：

在话题模型中，假设话题是单词的多项分布，文本是话题的多项分布，而狄利克雷分布是多项分布的先验，在进行贝叶斯学习时，需要使用狄利克雷分布作为先验分布，因此要先找出LDA的吉布斯抽样算法和变分EM算法中的多项分布，再找出对应的狄利克雷分布。

第1步：LDA的吉布斯抽样算法

根据书中第20.3节的LDA模型基本想法：

LDA模型的学习通常采用收缩的吉布斯抽样方法，基本想法是，通过对隐变量 $θ$ 和 $φ$ 积分，得到边缘概率分布 $p (w, z | α, β)$ （也是联合分布），其中变量 $w$ 是可观测的，变量 $z$ 是不可观测的；对后验概率分布 $p (z | w, α, β)$ 进行吉布斯抽样，得到分布 $p (z | w, α, β)$ 的样本集合；再利用这个样本集合对参数 $θ$ 和 $φ$ 进行估计，最终得到LDA模型 $p (z | w, α, β)$ 的所有参数估计。

根据书中第20.3.2节的抽样分布的表达式：

$p (w, z | α, β) = p (w | z, α, β) p (z | α, β) = p (w | z, β) p (z | α)$

处理第一个因子 $p (w | z, β)$

该分布表示在给定话题 $z$ 和话题-单词分布参数 $φ$ 下的文本的分布，是一个多项分布。

根据书中第20.3.2节的公式(20.22)：

$p (w | z, φ) = \prod_{k = 1}^{K} \prod_{v = 1}^{V} φ_{k v}^{n_{k v}}$
其中 $φ_{k v}$ 表示第 $k$ 个话题生成单词集合第 $v$ 个单词的概率， $n_{k v}$ 是数据中第 $k$ 个话题生成第 $v$ 个单词的次数。

现引入该多项分布的共轭先验，有

p (w, φ | z, β) \propto p (w | z, φ) p (φ | β)

对上式两边求 $φ$ 的积分得：

\begin{aligned} p (w | z, β) & = \int p (w, φ | z, β) d φ \\ = \int p (w | z, φ) p (φ | β) d φ \\ = \prod_{k = 1}^{K} \frac{B (n_{k} + β)}{B (β)} \end{aligned}

根据假设 $p (w | z, β), p (φ | β)$ 均是多项分布，其中第 $k$ 个话题的单词分布参数 $φ_{k}$ 的先验分布为

p (φ_{k} | β) = Dir (φ_{k} | β)

根据书中第20.3.3节的公式（20.32）：

参数 $φ = {φ_{k}}$ 的估计
后验概率满足
$p (φ_{k} | w, z, β) = Dir (φ_{k} | n_{k} + β)$
这里 $n_{k} = {n_{k 1}, n_{k 2}, \dots, n_{k V}}$ 是第 $k$ 个话题的单词的计数。

处理第二个因子 $p (z | α)$

该分布表示在给定文本的话题分布参数 $θ$ 下话题的分布，是一个多项分布。

根据书中第20.3.2节的公式(20.24)：

$p (z | θ) = \prod_{m = 1}^{M} \prod_{k = 1}^{K} θ_{m k}^{n_{m k}}$
其中 $θ_{m k}$ 表示第 $m$ 个文本生成第 $k$ 个话题的概率， $n_{m k}$ 是数据中第 $m$ 个文本生成第 $k$ 个话题的次数。

现引入该多项分布的共轭先验，有

p (z, θ | α) \propto p (z | θ) p (θ | α)

对上式两边求 $θ$ 积分得：

\begin{aligned} p (z | α) & = \int p (z, θ | α) d θ \\ = \int p (z | θ) p (θ | α) d θ \\ = \prod_{m = 1}^{M} \frac{B (n_{m} + α)}{B (α)} \end{aligned}

根据假设 $p (z, θ | α), p (θ | α)$ 均是多项分布，其中第 $m$ 个文本的话题分布参数 $θ_{m}$ 的先验分布为

p (θ_{m} | α) = Dir (θ_{m} | α)

根据书中第20.3.3节的公式（20.30）：

参数 $θ = {θ_{m}}$ 的估计
后验概率满足
$\begin{matrix} (20.30) & p (θ_{m} | z_{m}, α) = Dir (θ_{m} | n_{m} + α) \end{matrix}$
这里 $n_{m} = {n_{m 1}, n_{m 2}, \dots, n_{m K}}$ 是第 $m$ 个文本的话题的计数。

第2步：LDA的变分EM算法

根据书中第20.4.3节的变分EM算法：

将变分EM算法应用到LDA模型的学习上，首先定义具体的变分分布，推导证据下界的表达式，接着推导变分分布的参数和LDA模型的参数估计，最后给出LDA模型的变分EM算法。为简单起见，一次只考虑一个文本，记作 $w$ 。文本的单词序列 $w = (w_{1}, \dots, w_{n}, \dots, w_{N})$ ，对应的话题序列 $z = (z_{1}, \dots, z_{n}, \dots, z_{N})$ ，以及话题分布 $θ$ ，随机变量 $w$ ， $z$ 和 $θ$ 的联合分布是
$\begin{matrix} (20.42) & p (θ, z, w | α, φ) = p (θ | α) \prod_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, φ) \end{matrix}$
其中 $w$ 是可观测变量， $θ$ 和 $z$ 是隐变量， $α$ 和 $φ$ 是参数。

根据第1步已证明 $p (θ | α)$ 是狄利克雷分布，即

p (θ | α) = Dir (θ | α)

另一部分 $\prod_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, φ)$ 表示给定话题分布 $θ$ 产生第 $n$ 个文本的话题序列 $p (z_{n} | θ)$ 的概率以及给定话题单词分布参数 $φ$ 和第 $n$ 个文本的话题序列 $z_{n}$ 下产生第 $n$ 个文本 $w_{n}$ 的概率，根据第1步已证明均为多项分布。

根据书中第20.4.3节的公式(20.43)：

$\begin{matrix} (20.43) & q (θ, z | γ, η) = q (θ | γ) \prod_{n = 1}^{N} q (z_{n} | η_{n}) \end{matrix}$
其中 $γ$ 是狄利克雷分布参数， $η = (η_{1}, η_{2}, \dots, η_{n})$ 是多项分布参数，变量 $θ$ 和 $z$ 的各个分量都是条件独立的。

由于 $w$ 是可观测变量，变分EM算法就是利用上式的变分分布 $q (θ, z | γ, η)$ 来近似后验分布 $p (θ, z | w, α, φ)$ 。

根据书中第20.4.3节的公式(20.44)：

由此得到一个文本的证据下界
$L (γ, η, α, φ) = E_{q} [\log p (θ, z, w | α, φ)] - E_{q} [\log q (θ, z | γ, η)]$
展开证据下界式
$\begin{aligned} L (γ, η, α, φ) & = E_{q} [\log p (θ | α)] + E_{q} [\log p (z | θ)] \\ + E_{q} [\log p (w | z, φ)] - E_{q} [\log q (θ | γ)] - E_{q} [\log q (z | η)] \end{aligned}$

每一项都是对应的概率分布关于变分分布 $q (θ, z | γ, η)$ 的期望，逐一分析：

第一项包含 $p (θ | α)$ ，含有狄利克雷分布；
第二项 $p (z | θ)$ 为多项分布，其中参数 $θ$ 在变分分布中已假设为狄利克雷分布 $q (θ | γ) = Dir (θ | γ)$ ，含有狄利克雷分布；
第三项 $p (w | z, φ)$ 为多项分布，其中参数 $θ$ 的分布可以根据归一化性质消掉，剩余部分均为多项分布，因此不含狄利克雷分布；
第四项 $q (θ | γ)$ 已假设为狄利克雷分布；
第五项 $q (z | η)$ ，其中参数 $θ$ 的分布根据归一化性质消掉，剩余均为多项分布，故不含狄利克雷分布。

第3步：LDA中使用狄利克雷分布的重要性

由于LDA话题模型天然具备多项分布的性质，因此在进行贝叶斯学习时，则不可避免地需要引入狄利克雷分布作为多项分布的共轭先验，没有狄利克雷分布就无法进行话题模型的贝叶斯估计。

习题20.4

给出LDA的吉布斯抽样算法和变分EM算法的算法复杂度。

解答：

解答思路：

计算LDA的吉布斯抽样算法的算法复杂度
计算LDA的变分EM算法的算法复杂度：根据书上409页算法20.4和411页算法20.5，同样计算循环次数以及每次循环的代价，注意这里需要分别考虑 E 步和 M 步的代价，最后加起来即为 LDA 变分EM算法的复杂度。

解答步骤：

第1步：LDA的吉布斯抽样算法的算法复杂度

根据书中第20章的算法20.2（LDA吉布斯抽样算法），假设迭代次数为 $T$

第1、2步均为初始化相关，对于所有文本 $w_{m}$ ，需要进行 $M$ 次循环，即文本数量；对于第 $m$ 个文本中的所有单词 $w_{m n}$ ，需要进行 $N_{m}$ 次循环，即第 $m$ 个文本包含的单词数，因此一共进行 $T \cdot M \cdot N_{m}$ 次循环，故复杂度为 $T \cdot M \cdot N_{m}$
第3步为迭代，每次循环过程中，第3.a、3.c和3.d步均为固定更新，算法复杂度均为1
第3.b步涉及到随机采样，该公式第一个因子表示话题生成该位置单词的概率，计算复杂度为 $V$ ，即词典大小；第二个因子表示该位置的文本生成话题的概率，计算复杂度为 $K$ ，即话题数量；由于词典大小远大于话题数量，这里可以近似认为计算复杂度为 $V$

因此，总算法复杂度为 $T \cdot M \cdot N_{m} \cdot V$ 。

第2步：LDA的变分EM算法

根据书中第20章的算法20.5（LDA的变分EM算法），假设迭代次数为 $T$

E步：估计变分参数 $γ, η$ ，假设重复 $N_{E}$ 次后收敛，根据书中第409页算法20.4（LDA的变分参数估计算法）中的第4、5步的循环次数为 $N_{E} \cdot N \cdot K$ 次；第6步在计算 $Ψ (\sum_{l = 1}^{K} γ_{l}^{(t)})$ 时的算法复杂度为 $K$ ，其余计算的复杂度均为1
则每次总算法复杂度为 $N_{E} \cdot N \cdot K \cdot K$
M步：估计模型参数 $α, φ$ ，根据书中公式(20.63)

L [φ_{w}] = \sum_{m = 1}^{M} \sum_{n = 1}^{N_{m}} \sum_{k = 1}^{K} \sum_{v = 1}^{V} η_{m n k} w_{m n}^{v} \log φ_{k v} + \sum_{k = 1}^{K} λ_{k} (\sum_{v = 1}^{V} φ_{k v} - 1)

对 $φ_{k v}$ 求偏导并令其为零，归一化求解，得到参数 $φ_{k v}$ 的估计值

φ_{k v} \propto \sum_{m = 1}^{M} \sum_{n = 1}^{N_{m}} η_{m n k} w_{m m}^{v}

其算法复杂度为 $M \cdot N_{m}$ ；
再通过证据下界的最大化估计参数 $α$ ，根据公式(20.65)

L_{| α |} = \sum_{m = 1}^{M} {\log Γ (\sum_{l = 1}^{K} α_{l}) - \sum_{k = 1}^{K} \log Γ (α_{k}) + \sum_{k = 1}^{K} (α_{k} - 1) [Ψ (γ_{m k}) - Ψ (\sum_{l = 1}^{K} γ_{m l})]}

计算其关于 $α$ 的Hessian矩阵，然后应用牛顿法求该函数的最大化，假设牛顿法迭代次数为 $N_{M}$ ， $α$ 包含 $K$ 个话题的狄利克雷分布参数，牛顿法的计算复杂度为 $N_{M} \cdot K \cdot K$
则每次总算法复杂度为 $M \cdot N_{m} + N_{M} \cdot K \cdot K$

最后一共进行了 $T$ 次 EM 算法的迭代，因此，总算法复杂度为 $T \cdot (N_{E} \cdot N \cdot K \cdot K + M \cdot N_{m} + N_{M} \cdot K \cdot K)$ 。

习题20.5

证明变分EM算法收敛。

解答：

解答思路：

给出变分EM算法
给出EM算法的收敛性
证明在变分EM算法中，证据下界随着迭代进行单调递增

解答步骤：

第1步：变分EM算法

根据书中第20章的算法20.3：

假设模型式联合概率分布 $p (x, z | θ)$ ，其中 $x$ 是观测变量， $z$ 是隐变量， $θ$ 是参数。目标是通过观测数据的概率（证据） $\log p (x | θ)$ 的最大化，估计模型的参数 $θ$ 。使用变分推理，导入平均场 $q (z) = \prod_{i = 1}^{n} q (z_{i})$ ，定义证据下界
$\begin{matrix} (20.39) & L (q, θ) = E_{q} [\log p (x, z | θ)] - E_{q} [\log q (z)] \end{matrix}$
通过迭代，分别以 $q$ 和 $θ$ 为变量时对证据下界进行最大化，就得到变分EM算法。
算法20.3（变分EM算法）
循环执行以下E步和M步，直到收敛。
（1）E步：固定 $θ$ ，求 $L (q, θ)$ 对 $q$ 的最大化。
（2）M步：固定 $q$ ，求 $L (q, θ)$ 对 $θ$ 的最大化。
给出模型参数 $θ$ 的估计值。

第2步：EM算法的收敛性

根据书中第9.2节的定理9.1：

定理9.1 设 $P (Y | θ)$ 为观测数据的似然函数， $θ^{(i)} (i = 1, 2, \dots)$ 为EM算法得到的参数估计序列， $P (Y | θ^{(i)}) (i = 1, 2, \dots)$ 为对应的似然函数序列，则 $P (Y | θ^{i})$ 是单调递增的，即
$P (Y | θ^{(i + 1)}) ⩾ P (Y | θ^{(i)})$

根据书中第9.2节的定理9.2：

定理9.2 设 $L (θ) = \log P (Y | θ)$ 为观测数据的对数似然函数， $θ^{(i)} (i = 1, 2, \dots)$ 为EM算法得到的参数估计序列， $L (θ^{(i)}) (i = 1, 2, \dots)$ 为对应的对数似然函数序列。
（1）如果 $P (Y | θ)$ 有上界，则 $L (θ^{(i)}) = \log P (Y | θ^{(i)})$ 收敛到某一值 $L^{*}$ ；
（2）在函数 $Q (θ, θ^{'})$ 与 $L (θ)$ 满足一定条件下，由EM算法得到的参数估计序列 $θ^{(i)}$ 的收敛值 $θ^{*}$ 是 $L (θ)$ 的稳定点。

第3步：证明在变分EM算法中，证据下界随着迭代进行单调递增

对于证据下界

\begin{matrix} (1) & L (q, θ) = E_{q} [\log p (x, z | θ)] - E_{q} [\log q (z)] \end{matrix}

假设迭代次数从 $t$ 到 $t - 1$

E步：固定 $θ$ ，求 $L (q, θ^{(t - 1)})$ 对 $q$ 的最大化，由于 $\log p (x | θ)$ 并不依赖于 $q (z)$ ，所以 $L (q^{(t)}, θ^{(t - 1)})$ 的最大值出现在KL散度等于0的时候，即 $q (z)$ 与后验概率分布 $q (z | x, θ^{(t - 1)})$ 相等的时候，此时有证据下界等于对数似然函数，即

\begin{matrix} (2) & \log p (x | θ^{(t - 1)}) = L (q^{(t)}, θ^{(t - 1)}) \end{matrix}

如下图所示

M步：固定 $q (z)$ 求 $L (q, θ)$ 对 $θ$ 的最大化，更新模型参数 $θ$ ，此时下界 $L (q, θ)$ 增⼤，有

\begin{matrix} (3) & L (q^{(t)}, θ^{(t - 1)}) ⩽ L (q^{(t)}, θ^{(t)}) \end{matrix}

由于 $q$ 由模型参数 $θ^{(t - 1)}$ 确定，并且在 M 步中固定，所以它不会等于更新新的后验概率分布 $p (z | x, θ^{(t)})$ ，因此 KL 散度⾮零，对数似然函数的增量⼤于证据下界的增量，即

\begin{matrix} (4) & L (q^{(t)}, θ^{(t)}) ⩽ \log p (x | θ^{(t)}) \end{matrix}

如下图所示

结合公式(2)、(3)、(4)，可得

\log p (x | θ^{(t - 1)}) ⩽ \log p (x | θ^{(t)})

即证得在变分EM算法中， $\log p (x | θ)$ 每次迭代都保证单调递增，根据第2步的定理9.1和定理9.2，因此最后一定收敛。

第20章 潜在狄利克雷分配 ​

习题20.1 ​

习题20.2 ​

习题20.3 ​

习题20.4 ​

习题20.5 ​

第20章潜在狄利克雷分配

习题20.1

习题20.2

习题20.3

习题20.4

习题20.5