第11章条件随机场

习题11.1

写出图11.3中无向图描述的概率图模型的因子分解式。

解答：

解答思路：

给出无向图中团与最大团的定义；
给出概率无向图模型的因子分解的定义；
计算概率无向图模型的因子分解式。

解答步骤：

第1步：无向图中团与最大团的定义

根据书中第11章的定义11.2的团与最大团：

定义11.2（团与最大团） 无向图 $G$ 中任意两个结点均有边连接的结点子集称为团（clique），若 $C$ 是无向图 $G$ 的一个团，并且不能再加进任何一个 $G$ 的结点使其成为一个更大的团，则称此 $C$ 为最大团（maximal clique）。

第2步：概率无向图模型的因子分解的定义

根据书中第11.1.2节的概率无向图模型的因子分解定义：

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解（factorization）。

根据书中第11.1.2节的概率无向图模型的联合概率分布：

给定概率无向图模型，设其无向图为 $G$ ， $C$ 为 $G$ 上的最大团， $Y_{C}$ 表示 $C$ 对应的随机变量。那么概率无向图模型的联合概率分布 $P (Y)$ 可写作图中所有最大团 $C$ 上的函数 $Ψ_{C} (Y_{C})$ 的乘积形式，即
$P (Y) = \frac{1}{Z} \prod_{C} Ψ_{C} (Y_{C})$
其中， $Z$ 是规范化因子（normaliztion factor），由式
$Z = \sum_{Y} \prod_{C} Ψ_{C} (Y_{C})$
给出。

第3步：计算概率无向图模型的因子分解式

由图11.3可知，该图是由4个结点组成的无向图，结点分别为 $Y_{1}, Y_{2}, Y_{3}, Y_{4}$ ，根据第1步的团和最大团定义，可得：

图中由2个结点组成的团有5个： ${Y_{1}, Y_{2}}, {Y_{2}, Y_{3}}, {Y_{3}, Y_{4}}, {Y_{4}, Y_{2}}$ 和 ${Y_{1}, Y_{3}}$
图中包括2个最大团： ${Y_{1}, Y_{2}, Y_{3}}$ 和 ${Y_{2}, Y_{3}, Y_{4}}$
由于 $Y_{1}$ 和 $Y_{4}$ 没有边连接，所以 ${Y_{1}, Y_{2}, Y_{3}, Y_{4}}$ 不是一个团。

根据第2步中概率图模型的因子分解定义和联合概率分布的计算公式，可得因子分解：

P (Y) = \frac{Ψ_{(1, 2, 3)} (Y_{(1, 2, 3)}) \cdot Ψ_{(2, 3, 4)} (Y_{(2, 3, 4)})}{\sum_{Y} [Ψ_{(1, 2, 3)} (Y_{(1, 2, 3)}) \cdot Ψ_{(2, 3, 4)} (Y_{(2, 3, 4)})]}

习题11.2

证明 $Z (x) = a_{n}^{T} (x) \cdot 1 = 1^{T} \cdot β_{0} (x)$ ，其中 $1$ 是元素均为1的 $m$ 维列向量。

解答：

解答思路：

给出 $Z (x)$ 的定义公式；
根据书中第225页前向-后向算法，推导 $α_{n}^{T} (x)$ 和 $β_{0} (x)$ ；
证明 $Z (x) = α_{n}^{T} (x) \cdot 1$
证明 $Z (x) = 1^{T} \cdot β_{0} (x)$

解答步骤：

第1步：给出 $Z (x)$ 的定义式

根据书中第11.2.4节的条件随机场的矩阵形式：

假设 $P_{w} (y | x)$ 是由式(11.15)~式(11.16)给出的线性链条件随机场，表示对给定观测序列 $x$ ，相应的标记序列 $y$ 的条件概率。对每个标记序列引进特殊的起点和终点状态标记 $y_{0} = start$ 和 $y_{n + 1} = stop$ ，这时标注序列的概率 $P_{w} (y | x)$ 可以通过矩阵形式表示并有效计算。
对观测序列 $x$ 的每一个位置 $i = 1, 2, \dots, n + 1$ ，由于 $y_{i - 1}$ 和 $y_{i}$ 在 $m$ 个标记中取值，可以定义一个 $m$ 阶矩阵随机变量
$M_{i} (x) = [M_{i} (y_{i - 1}, y_{i} | x)]$
条件概率 $P_{w} (y | x)$ 是
$P_{w} (y | x) = \frac{1}{Z_{w} (x)} \prod_{i = 1}^{n + 1} M_{i} (y_{i - 1}, y_{i} | x)$
其中， $Z_{w} (x)$ 为规范化因子，是 $n + 1$ 个矩阵的乘积的(start, stop)元素，即
$Z_{w} (x) = {[M_{1} (x) M_{2} (x) \dots M_{n + 1} (x)]}_{start, stop}$
注意， $y_{0} = start$ 与 $y_{n + 1} = stop$ 表示开始状态与终止状态，规范化因子 $Z_{w} (x)$ 是以start为起点stop为终点，通过状态的所有路径 $y_{1} y_{2} \dots y_{n}$ 的非规范化概率 $\prod_{i = 1}^{n + 1} M_{i} (y_{i - 1}, y_{i} | x)$ 之和。

第2步：给出 $α_{n}^{T} (x)$ 和 $β_{1} (x)$ 的定义式

根据书中11.3.1节的前向-后向算法：

对每个指标 $i = 0, 1, \dots, n + 1$ ，定义前向向量 $α_{i} (x)$ ：
$α_{0} (y | x) = {\begin{cases} 1, & y = start \\ 0, & 否则 \end{cases}$
递推公式为：
$α_{i}^{T} (y_{i} | x) = α_{i - 1}^{T} (y_{i - 1} | x) M_{i} (y_{i - 1}, y_{i} | x), i = 1, 2, \dots, n + 1$
又可表示为
$α_{i}^{T} (x) = α_{i - 1}^{T} (x) M_{i} (x)$
$α_{i} (y_{i} | x)$ 表示在位置 $i$ 的标记是 $y_{i}$ ，并且从1到 $i$ 的前部分标记序列的非规范化概率， $y_{i}$ 可取的值有 $m$ 个，所以 $α_{i} (x)$ 是 $m$ 维列向量。
同样，对每个指标 $i = 0, 1, \dots, n + 1$ ，定义后向向量 $β_{i} (x)$ ：
$β_{n + 1} (y_{n + 1} | x) = {\begin{cases} 1, & y_{n + 1} = stop \\ 0, & 否则 \end{cases}$ $β_{i} (y_{i} | x) = [M_{i + 1} (y_{i}, y_{i + 1} | x)] β_{i + 1} (y_{i + 1} | x)$
又可表示为
$β_{i} (x) = M_{i + 1} (x) β_{i + 1} (x)$
$β_{i} (y_{i} | x)$ 表示在位置 $i$ 的标记为 $y_{i}$ ，并且从 $i + 1$ 到 $n$ 的后部分标记序列的非规范化概率。

根据参考文献 Shallow Parsing with Conditional Random Fields 中的第2章Conditional Random Fields：

$α_{i} = {\begin{cases} α_{i - 1} M_{i}, & 0 < i ⩽ n \\ 1, & i = 0 \end{cases}$ $β_{i}^{T} = {\begin{cases} M_{i + 1} β_{i + 1}^{T}, & 1 ⩽ i < n \\ 1, & i = n \end{cases}$

由上述可得：

当观测序列 $x$ 有n个结点时，有

α_{n}^{T} (x) = α_{0}^{T} (x) M_{1} (x) \dots M_{n} (x)

其中 $y_{0} = start$ 和 $y_{n} = stop$ 分别表示开始状态和终止状态，且 $Z (x) = [M_{1} (x) M_{2} (x) \dots M_{n} (x)]_{start, stop}$

当观测序列 $x$ 有n-1个结点时，有

β_{1} (x) = M_{2} (x) \dots M_{n} (x) β_{n} (x)

其中 $y_{1} = start$ 和 $y_{n} = stop$ 分别表示开始状态和终止状态，且 $Z (x) = [M_{2} (x) \dots M_{n} (x)]_{start, stop}$

第3步：证明 $Z (x) = α_{n}^{T} (x) \cdot 1$

$∵ α_{0} (y | x) = {\begin{cases} 1, & y_{0} = start \\ 0, & 否则 \end{cases}$

$\begin{aligned} ∴ α_{n}^{T} (x) \cdot 1 & = α_{0}^{T} (x) M_{1} (x) \dots M_{n} (x) \cdot 1 \\ = 1^{T} \cdot M_{1} (x) \dots M_{n} (x) \cdot 1 \\ = Z (x) \end{aligned}$

第4步：证明 $Z (x) = 1^{T} \cdot β_{1} (x)$

$∵ β_{n} (y_{n} | x) = {\begin{cases} 1, & y_{n} = stop \\ 0, & 否则 \end{cases}$

$\begin{aligned} ∴ 1^{T} \cdot β_{1} (x) & = 1^{T} \cdot M_{2} (x) \dots M_{n} (x) β_{n} (x) \\ = 1^{T} \cdot M_{2} (x) \dots M_{n} (x) \cdot 1 \\ = Z (x) \end{aligned}$

综上所述： $Z (x) = a_{n}^{T} (x) \cdot 1 = 1^{T} \cdot β_{1} (x)$ ，命题得证。

习题11.3

写出条件随机场模型学习的梯度下降法。

解答：

解答思路：

给出条件随机场模型的对数似然函数；
写出条件随机场模型学习的梯度下降法。

解答步骤：

第1步：条件随机场模型的对数似然函数

根据书中第11章的定理11.2的线性链条件随机场的参数化形式：

定理11.2（线性链条件随机场的参数化形式） 设 $P (Y | X)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x$ 的条件下，随机变量 $Y$ 取值为 $y$ 的条件概率具有如下形式：
$P (y | x) = \frac{1}{Z (x)} \exp (\sum_{i, k} λ_{k} t_{k} (y_{i - 1}, y_{i}, x, i) + \sum_{i, l} μ_{l} s_{l} (y_{i}, x, i))$
其中，
$Z (x) = \sum_{y} \exp (\sum_{i, k} λ_{k} t_{k} (y_{i - 1}, y_{i}, x, i) + \sum_{i, l} μ_{l} s_{l} (y_{i}, x, i))$
式中， $t_{k}$ 和 $s_{l}$ 是特征函数， $λ_{k}$ 和 $μ_{l}$ 是对应的权值。 $Z (x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。

根据书中第11.2.3节的条件随机场的简化形式：

设有 $K_{1}$ 个转移特征， $K_{2}$ 个状态特征， $K = K_{1} + K_{2}$ ，记
$f_{k} (y_{i - 1}, y_{i}, x, i) = {\begin{cases} t_{k} (y_{i - 1}, y_{i}, x, i), & k = 1, 2, \dots, K_{1} \\ s_{l} (y_{i}, x, i), & k = K_{1} + l; l = 1, 2, \dots, K_{2} \end{cases}$
然后，对转移特征与状态特征在各个位置 $i$ 求和，记作
$f_{k} (y, x) = \sum_{i = 1}^{n} f_{k} (y_{i - 1}, y_{i}, x, i), k = 1, 2, \dots, K$
用 $w_{k}$ 表示特征 $f_{k} (y, x)$ 的权值，即
$w_{k} = {\begin{cases} λ_{k}, & k = 1, 2, \dots, K_{1} \\ μ_{l}, & k = K_{1} + l; l = 1, 2, \dots, K_{2} \end{cases}$
于是，条件随机场可表示为
$P (y | x) = \frac{1}{Z (x)} \exp \sum_{k = 1}^{K} w_{k} f_{k} (y, x) Z (x) = \sum_{y} \exp \sum_{k = 1}^{K} w_{k} f_{k} (y, x)$

根据书中第11.4.1节的条件随机场模型的对数似然函数：

当 $P_{w}$ 是一个由式(11.15)和式(11.16)给出的条件随机场模型时，对数似然函数为
$L (w) = \sum_{j = 1}^{N} \sum_{k = 1}^{K} w_{k} f_{k} (y_{j}, x_{j}) - \sum_{j = 1}^{N} \log Z_{w} (x_{j})$

将对数似然函数求偏导，可得

\begin{aligned} g (w^{(n)}) = \frac{\partial L (w)}{\partial w^{(n)}} & = \sum_{j = 1}^{N} f_{n} (y_{j}, x_{j}) - \sum_{j = 1}^{N} \frac{1}{Z_{w} (x_{j})} \cdot \frac{\partial Z_{w} (x_{j})}{\partial w_{n}} \\ = \sum_{j = 1}^{N} f_{n} (y_{j}, x_{j}) - \sum_{i = 1}^{N} \frac{1}{Z_{w} (x_{i})} \cdot \sum_{j = 1}^{N} [(\exp \sum_{k = 1}^{K} w_{k} f_{k} (y_{j}, x_{i})) \cdot f_{n} (y_{j}, x_{i})] \end{aligned}

梯度函数为

\nabla L (w) = [\frac{\partial L (w)}{\partial w^{(0)}}, \dots, \frac{\partial L (w)}{\partial w^{(N)}}]

第2步：写出条件随机场模型学习的梯度下降法

根据书中附录A 梯度下降法的算法：

算法A.1（梯度下降法）
输入：目标函数 $f (x)$ ，梯度函数 $g (x) = \nabla f (x)$ ，计算精度 $ε$ ；
输出： $f (x)$ 的极小值 $x^{*}$ 。
（1）取初始值 $x^{(0)} \in R^{n}$ ，置 $k = 0$ 。
（2）计算 $f (x^{(k)})$ 。
（3）计算梯度 $g_{k} = g (x^{(k)})$ ，当 $∥ g_{k} ∥ < ε$ 时，停止迭代，令 $x^{*} = x^{(k)}$ ；否则，令 $p_{k} = - g (x^{(k)})$ ，求 $λ_{k}$ ，使
$f (x^{(k)} + λ_{k} p_{k}) = min_{λ ⩾ 0} f (x^{(k)} + λ p_{k})$
（4）置 $x^{(k + 1)} = x^{(k)} + λ_{k} p_{k}$ ，计算 $f (x^{(k + 1)})$ 。当 $∥ f (x^{(k + 1)}) - f (x^{(k)}) ∥ < ε$ 或 $∥ x^{(k + 1)} - x^{(k)} ∥ < ε$ 时，停止迭代，令 $x^{*} = x^{(k + 1)}$ 。
（5）否则，置 $k = k + 1$ ，转步骤（3）。

条件随机场模型学习的梯度下降法：

输入：目标函数 $f (w)$ ，梯度函数 $g (w) = \nabla f (w)$ ，计算精度 $ε$
输出： $f (w)$ 的极大值 $w^{*}$
（1）取初始值 $w^{(0)} \in R^{n}$ ，置 $k = 0$ 。
（2）计算 $f (w^{(n)})$ 。
（3）计算梯度 $g_{n} = g (w^{(n)})$ ，当 $∥ g_{n} ∥ < ε$ 时，停止迭代，令 $w^{*} = w^{(n)}$ ；否则，令 $p_{n} = - g (w^{(n)})$ ，求 $λ_{n}$ ，使

f (w^{(n)} + λ_{n} p_{n}) = max_{λ ⩾ 0} f (w^{(n)} + λ p_{n})

（4）置 $w^{(n + 1)} = w^{(n)} + λ_{n} p_{n}$ ，计算 $f (w^{(n + 1)})$ 。当 $∥ f (w^{(n + 1)}) - f (w^{(n)}) ∥ < ε$ 或 $∥ w^{(n + 1)} - w^{(n)} ∥ < ε$ 时，停止迭代，令 $w^{*} = w^{(n + 1)}$ 。
（5）否则，置 $n = n + 1$ ，转步骤（3）。

习题11.4

参考图11.6的状态路径图，假设随机矩阵 $M_{1} (x), M_{2} (x), M_{3} (x), M_{4} (x)$ 分别是

M_{1} (x) = [\begin{matrix} 0 & 0 \\ 0.5 & 0.5 \end{matrix}], M_{2} (x) = [\begin{matrix} 0.3 & 0.7 \\ 0.7 & 0.3 \end{matrix}] M_{3} (x) = [\begin{matrix} 0.5 & 0.5 \\ 0.6 & 0.4 \end{matrix}], M_{4} (x) = [\begin{matrix} 0 & 1 \\ 0 & 1 \end{matrix}]

求以 $start = 2$ 为起点 $stop = 2$ 为终点的所有路径的状态序列 $y$ 的概率及概率最大的状态序列。

解答：

解答思路：

根据书中第223页条件随机场的矩阵形式，以及例题11.2，通过自编程实现计算所有路径状态序列的概率及概率最大的状态序列。

解答步骤：

python

import numpy as np


class CRFMatrix:
    def __init__(self, M, start, stop):
        # 随机矩阵
        self.M = M
        #
        self.start = start
        self.stop = stop
        self.path_prob = None

    def _create_path(self):
        """按照图11.6的状态路径图，生成路径"""
        # 初始化start结点
        path = [self.start]
        for i in range(1, len(self.M)):
            paths = []
            for _, r in enumerate(path):
                temp = np.transpose(r)
                # 添加状态结点1
                paths.append(np.append(temp, 1))
                # 添加状态结点2
                paths.append(np.append(temp, 2))
            path = paths.copy()

        # 添加stop结点
        path = [np.append(r, self.stop) for _, r in enumerate(path)]
        return path

    def fit(self):
        path = self._create_path()
        pr = []
        for _, row in enumerate(path):
            p = 1
            for i in range(len(row) - 1):
                a = row[i]
                b = row[i + 1]
                # 根据公式11.24，计算条件概率
                p *= M[i][a - 1][b - 1]
            pr.append((row.tolist(), p))
        # 按照概率从大到小排列
        pr = sorted(pr, key=lambda x: x[1], reverse=True)
        self.path_prob = pr

    def print(self):
        # 打印结果
        print("以start=%s为起点stop=%s为终点的所有路径的状态序列y的概率为：" % (self.start, self.stop))
        for path, p in self.path_prob:
            print("    路径为：" + "->".join([str(x) for x in path]), end=" ")
            print("概率为：" + str(p))
        print("概率最大[" + str(self.path_prob[0][1]) + "]的状态序列为:",
              "->".join([str(x) for x in self.path_prob[0][0]]))

python

# 创建随机矩阵
M1 = [[0, 0], [0.5, 0.5]]
M2 = [[0.3, 0.7], [0.7, 0.3]]
M3 = [[0.5, 0.5], [0.6, 0.4]]
M4 = [[0, 1], [0, 1]]
M = [M1, M2, M3, M4]
# 构建条件随机场的矩阵模型
crf = CRFMatrix(M=M, start=2, stop=2)
# 得到所有路径的状态序列的概率
crf.fit()
# 打印结果
crf.print()

以start=2为起点stop=2为终点的所有路径的状态序列y的概率为：
    路径为：2->1->2->1->2 概率为：0.21
    路径为：2->2->1->1->2 概率为：0.175
    路径为：2->2->1->2->2 概率为：0.175
    路径为：2->1->2->2->2 概率为：0.13999999999999999
    路径为：2->2->2->1->2 概率为：0.09
    路径为：2->1->1->1->2 概率为：0.075
    路径为：2->1->1->2->2 概率为：0.075
    路径为：2->2->2->2->2 概率为：0.06
概率最大[0.21]的状态序列为: 2->1->2->1->2

参考文献

【1】Sha F, Pereira F. Shallow Parsing with Conditional Random Fields[C]. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics

第11章 条件随机场 ​

习题11.1 ​

习题11.2 ​

习题11.3 ​

习题11.4 ​

参考文献 ​

第11章条件随机场

习题11.1

习题11.2

习题11.3

习题11.4

参考文献