符号

本书中使用的符号概述如下。

数字

  • \(x\):标量

  • \(\mathbf{x}\):向量

  • \(\mathbf{X}\):矩阵

  • \(\mathsf{X}\):张量

  • \(\mathbf{I}\):单位矩阵

  • \(x_i\)\([\mathbf{x}]_i\):向量 \(\mathbf{x}\) 的第 \(i\) 个元素

  • \(x_{ij}\)\([\mathbf{X}]_{ij}\):矩阵 \(\mathbf{X}\)\(i\) 行第 \(j\) 列的元素

集合论

  • \(\mathcal{X}\):集合

  • \(\mathbb{Z}\):整数集合

  • \(\mathbb{R}\):实数集合

  • \(\mathbb{R}^n\)\(n\) 维实数向量集合

  • \(\mathbb{R}^{a \times b}\):包含 \(a\) 行和 \(b\) 列的实数矩阵集合

  • \(\mathcal{A} \cup \mathcal{B}\):集合 \(\mathcal{A}\)\(\mathcal{B}\) 的并集

  • \(\mathcal{A} \cap \mathcal{B}\):集合 \(\mathcal{A}\)\(\mathcal{B}\) 的交集

  • \(\mathcal{A} \setminus \mathcal{B}\):集合 \(\mathcal{A}\) 与集合 \(\mathcal{B}\) 相减,\(\mathcal{B}\) 关于 \(\mathcal{A}\) 的相对补集

  • \(|\mathcal{X}|\):集合 \(\mathcal{X}\) 的基数(元素个数)

推荐系统

  • \(u\)\(v\):用户

  • \(i\)\(j\)\(k\):物品

  • \(\mathcal{U}\):用户全集

  • \(\mathcal{I}\):物品全集

  • \(c\):上下文(场景、会话信息)

  • \(r_{ui}\):用户 \(u\) 对物品 \(i\) 的评分或反馈

  • \(\hat{r}_{ui}\):用户 \(u\) 对物品 \(i\) 的预测评分

  • \(\hat{y}\):模型预测输出(如点击率预估值)

  • \(N(u)\):用户 \(u\) 有过交互的物品集合

  • \(N(i)\):与物品 \(i\) 有过交互的用户集合

  • \(w_{ij}\):物品 \(i\) 与物品 \(j\) 之间的相似度

  • \(w_{uv}\):用户 \(u\) 与用户 \(v\) 之间的相似度

  • \(\mathbf{p}_u\):用户 \(u\) 的隐向量(潜在特征向量)

  • \(\mathbf{q}_i\):物品 \(i\) 的隐向量(潜在特征向量)

  • \(\mathcal{S}\):用户交互序列数据集

  • \(\mathcal{S}^u\):用户 \(u\) 的历史交互序列

  • \(i_{1:T}\):长度为 \(T\) 的物品交互序列

  • \(i_{<t}\):序列中时刻 \(t\) 之前的所有物品 \((i_1, i_2, \ldots, i_{t-1})\)

  • \(pCTR\):点击率预估值(Predicted Click-Through Rate)

  • \(pCVR\):转化率预估值(Predicted Conversion Rate)

  • \(pCTCVR\):点击后转化率联合预估值,即 \(pCTR \times pCVR\)

深度学习

  • \(\theta\):模型参数

  • \(\mathbf{W}^{(l)}\)\(\mathbf{b}^{(l)}\):第 \(l\) 层神经网络的权重矩阵和偏置向量

  • \(a^{(l)}\):第 \(l\) 层的激活输出向量

  • \(d\):隐层维度或嵌入维度

  • \(n\):序列长度

  • \(h\):多头注意力的头数

  • \(d_k\):注意力机制中查询/键的维度

  • \(\mathbf{Q}\)\(\mathbf{K}\)\(\mathbf{V}\):注意力机制中的查询、键、值矩阵

  • \(\mathbf{W}^Q\)\(\mathbf{W}^K\)\(\mathbf{W}^V\):查询、键、值的投影权重矩阵

  • \(\mathbf{e}_i\):第 \(i\) 个特征域或第 \(i\) 个物品的嵌入向量

  • \(\mathbf{E}\):码本矩阵,包含 \(K\) 个码字(codeword)

  • \(\mathbf{z}_e\):编码器的连续潜在输出向量

  • \(\mathbf{z}_q\):向量量化后的离散近似向量

  • \(K\):码本大小(码字数量)或专家网络数量

  • \(L\):残差量化(RQ-VAE)的量化层数

  • \(\text{sg}[\cdot]\):停止梯度算子(stop-gradient),阻断梯度传递

函数和运算符

  • \(f(\cdot)\):函数

  • \(\log(\cdot)\):自然对数

  • \(\exp(\cdot)\):指数函数

  • \(\mathbf{1}_{\mathcal{X}}\):指示函数

  • \((\cdot)^\top\):向量或矩阵的转置

  • \(\mathbf{X}^{-1}\):矩阵的逆

  • \(\odot\):按元素相乘(Hadamard 积)

  • \(\oplus\):向量拼接(concatenation)

  • \([\cdot, \cdot]\):连结

  • \(\langle \mathbf{x}, \mathbf{y} \rangle\):向量 \(\mathbf{x}\)\(\mathbf{y}\) 的点积

  • \(\|\cdot\|_p\)\(L_p\) 正则

  • \(\|\cdot\|\)\(L_2\) 正则

  • \(\sigma(\cdot)\):Sigmoid 函数,\(\sigma(x) = 1/(1+e^{-x})\)

  • \(\text{softmax}(\cdot)\):Softmax 归一化函数

  • \(\text{ReLU}(\cdot)\):线性整流函数,\(\text{ReLU}(x) = \max(0, x)\)

  • \(\text{tanh}(\cdot)\):双曲正切函数

  • \(\sum\):连加

  • \(\prod\):连乘

  • \(\overset{\text{def}}{=}\):定义

  • \(\arg\max\)\(\arg\min\):取最大值/最小值时对应的参数

微积分

  • \(\frac{dy}{dx}\)\(y\) 关于 \(x\) 的导数

  • \(\frac{\partial y}{\partial x}\)\(y\) 关于 \(x\) 的偏导数

  • \(\nabla_{\mathbf{x}} y\)\(y\) 关于 \(\mathbf{x}\) 的梯度

  • \(\int_a^b f(x) \, dx\)\(f\)\(a\)\(b\) 区间上关于 \(x\) 的定积分

  • \(\int f(x) \, dx\)\(f\) 关于 \(x\) 的不定积分

概率与信息论

  • \(P(\cdot)\):概率分布

  • \(z \sim P\):随机变量 \(z\) 具有概率分布 \(P\)

  • \(P(X \mid Y)\)\(X\) 给定 \(Y\) 的条件概率

  • \(p(x)\):概率密度函数

  • \(E_z[f(x)]\):函数 \(f\)\(z\) 的数学期望

  • \(X \perp Y\):随机变量 \(X\)\(Y\) 是独立的

  • \(\text{Var}(X)\):随机变量 \(X\) 的方差

  • \(\sigma_X\):随机变量 \(X\) 的标准差

  • \(\mathcal{L}\):损失函数(目标函数)

  • \(D_\text{KL}(P \| Q)\)\(P\)\(Q\) 的 KL 散度

  • \(H(X)\):随机变量 \(X\) 的熵

扩散模型

  • \(x_0\):原始数据样本

  • \(x_t\):经过 \(t\) 步前向加噪后的含噪潜变量

  • \(T\):扩散过程总步数

  • \(\beta_t \in (0, 1)\):第 \(t\) 步的噪声强度系数

  • \(\alpha_t = 1 - \beta_t\):第 \(t\) 步的信号保留率

  • \(\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i\):累积信号保留率

  • \(\varepsilon \sim \mathcal{N}(0, \mathbf{I})\):标准高斯噪声

  • \(\varepsilon_\theta(x_t, t)\):噪声预测网络(以 \(\theta\) 为参数)

  • \(q(x_t \mid x_{t-1})\):前向扩散过程的条件分布

  • \(p_\theta(x_{t-1} \mid x_t)\):以 \(\theta\) 为参数的逆向去噪分布

复杂度

  • \(\mathcal{O}\):大 \(O\) 标记