符号¶

以下根据不同的主题将本书所涉及的符号进行了分类介绍。

数字¶

\(x\)：标量
\(\boldsymbol{x}\)：向量
\(\boldsymbol{X}\)：矩阵
\(\mathsf{X}\)：张量
\(\boldsymbol{I}\)：单位矩阵
\(x_i\)，\([\boldsymbol{x}]_i\)：向量 \(\boldsymbol{x}\) 的第 \(i\) 个元素
\(x_{ij}\)，\([\boldsymbol{X}]_{ij}\)：矩阵 \(\boldsymbol{X}\) 第 \(i\) 行第 \(j\) 列的元素

\(\mathcal{X}\)：集合
\(\mathbb{Z}\)：整数集合
\(\mathbb{R}\)：实数集合
\(\mathbb{R}^n\)：\(n\) 维实数向量集合
\(\mathbb{R}^{a \times b}\)：包含 \(a\) 行和 \(b\) 列的实数矩阵集合
\(\mathcal{A} \cup \mathcal{B}\)：集合 \(\mathcal{A}\) 和 \(\mathcal{B}\) 的并集
\(\mathcal{A} \cap \mathcal{B}\)：集合 \(\mathcal{A}\) 和 \(\mathcal{B}\) 的交集
\(\mathcal{A} \setminus \mathcal{B}\)：集合 \(\mathcal{A}\) 与集合 \(\mathcal{B}\) 相减，\(\mathcal{B}\) 关于 \(\mathcal{A}\) 的相对补集
\(|\mathcal{X}|\)：集合 \(\mathcal{X}\) 的基数（元素个数）

\(\theta\)：模型参数
\(\boldsymbol{W}^{(l)}\)，\(\boldsymbol{b}^{(l)}\)：第 \(l\) 层神经网络的权重矩阵和偏置向量
\(\boldsymbol{a}^{(l)}\)：第 \(l\) 层的激活输出向量
\(d\)：隐层维度或嵌入维度
\(n\)：序列长度
\(h\)：多头注意力的头数
\(d_k\)：注意力机制中查询/键的维度
\(\boldsymbol{Q}\)，\(\boldsymbol{K}\)，\(\boldsymbol{V}\)：注意力机制中的查询（Query）、键（Key）、值（Value）矩阵
\(\boldsymbol{W}^{\text{Q}}\)，\(\boldsymbol{W}^{\text{K}}\)，\(\boldsymbol{W}^{\text{V}}\)：查询、键、值的投影权重矩阵
\(\boldsymbol{e}_i\)：第 \(i\) 个特征域或第 \(i\) 个物品的嵌入向量
\(\boldsymbol{E}\)：码本矩阵，包含 \(K\) 个码字（codeword）
\(\boldsymbol{z}_{\text{e}}\)：编码器的连续潜在输出向量
\(\boldsymbol{z}_{\text{q}}\)：向量量化后的离散近似向量
\(K\)：码本大小（码字数量）或专家网络数量
\(L\)：残差量化（RQ-VAE）的量化层数
\(\text{sg}[\cdot]\)：停止梯度算子（stop-gradient），阻断梯度传递

\(f(\cdot)\)：函数
\(\log(\cdot)\)：自然对数
\(\exp(\cdot)\)：指数函数
\(\mathbb{1}_{\mathcal{X}}\)：指示函数
\((\cdot)^\top\)：向量或矩阵的转置
\(\boldsymbol{X}^{-1}\)：矩阵的逆
\(\odot\)：按元素相乘（Hadamard 积）
\(\oplus\)：向量拼接（concatenation）
\([\cdot, \cdot]\)：连结
\(\langle \boldsymbol{x}, \boldsymbol{y} \rangle\)：向量 \(\boldsymbol{x}\) 和 \(\boldsymbol{y}\) 的点积
\(\|\cdot\|_p\)：\(L_p\) 正则
\(\|\cdot\|\)：\(L_2\) 正则
\(\sigma(\cdot)\)：Sigmoid 函数，\(\sigma(x) = 1/(1+e^{-x})\)
\(\text{softmax}(\cdot)\)：Softmax 归一化函数
\(\text{ReLU}(\cdot)\)：线性整流函数，\(\text{ReLU}(x) = \max(0, x)\)
\(\text{tanh}(\cdot)\)：双曲正切函数
\(\sum\)：连加
\(\prod\)：连乘
\(\overset{\text{def}}{=}\)：定义
\(\arg\max\)，\(\arg\min\)：取最大值/最小值时对应的参数