符号¶
本书中使用的符号概述如下。
数字¶
\(x\):标量
\(\mathbf{x}\):向量
\(\mathbf{X}\):矩阵
\(\mathsf{X}\):张量
\(\mathbf{I}\):单位矩阵
\(x_i\),\([\mathbf{x}]_i\):向量 \(\mathbf{x}\) 的第 \(i\) 个元素
\(x_{ij}\),\([\mathbf{X}]_{ij}\):矩阵 \(\mathbf{X}\) 第 \(i\) 行第 \(j\) 列的元素
集合论¶
\(\mathcal{X}\):集合
\(\mathbb{Z}\):整数集合
\(\mathbb{R}\):实数集合
\(\mathbb{R}^n\):\(n\) 维实数向量集合
\(\mathbb{R}^{a \times b}\):包含 \(a\) 行和 \(b\) 列的实数矩阵集合
\(\mathcal{A} \cup \mathcal{B}\):集合 \(\mathcal{A}\) 和 \(\mathcal{B}\) 的并集
\(\mathcal{A} \cap \mathcal{B}\):集合 \(\mathcal{A}\) 和 \(\mathcal{B}\) 的交集
\(\mathcal{A} \setminus \mathcal{B}\):集合 \(\mathcal{A}\) 与集合 \(\mathcal{B}\) 相减,\(\mathcal{B}\) 关于 \(\mathcal{A}\) 的相对补集
\(|\mathcal{X}|\):集合 \(\mathcal{X}\) 的基数(元素个数)
推荐系统¶
\(u\),\(v\):用户
\(i\),\(j\),\(k\):物品
\(\mathcal{U}\):用户全集
\(\mathcal{I}\):物品全集
\(c\):上下文(场景、会话信息)
\(r_{ui}\):用户 \(u\) 对物品 \(i\) 的评分或反馈
\(\hat{r}_{ui}\):用户 \(u\) 对物品 \(i\) 的预测评分
\(\hat{y}\):模型预测输出(如点击率预估值)
\(N(u)\):用户 \(u\) 有过交互的物品集合
\(N(i)\):与物品 \(i\) 有过交互的用户集合
\(w_{ij}\):物品 \(i\) 与物品 \(j\) 之间的相似度
\(w_{uv}\):用户 \(u\) 与用户 \(v\) 之间的相似度
\(\mathbf{p}_u\):用户 \(u\) 的隐向量(潜在特征向量)
\(\mathbf{q}_i\):物品 \(i\) 的隐向量(潜在特征向量)
\(\mathcal{S}\):用户交互序列数据集
\(\mathcal{S}^u\):用户 \(u\) 的历史交互序列
\(i_{1:T}\):长度为 \(T\) 的物品交互序列
\(i_{<t}\):序列中时刻 \(t\) 之前的所有物品 \((i_1, i_2, \ldots, i_{t-1})\)
\(pCTR\):点击率预估值(Predicted Click-Through Rate)
\(pCVR\):转化率预估值(Predicted Conversion Rate)
\(pCTCVR\):点击后转化率联合预估值,即 \(pCTR \times pCVR\)
深度学习¶
\(\theta\):模型参数
\(\mathbf{W}^{(l)}\),\(\mathbf{b}^{(l)}\):第 \(l\) 层神经网络的权重矩阵和偏置向量
\(a^{(l)}\):第 \(l\) 层的激活输出向量
\(d\):隐层维度或嵌入维度
\(n\):序列长度
\(h\):多头注意力的头数
\(d_k\):注意力机制中查询/键的维度
\(\mathbf{Q}\),\(\mathbf{K}\),\(\mathbf{V}\):注意力机制中的查询、键、值矩阵
\(\mathbf{W}^Q\),\(\mathbf{W}^K\),\(\mathbf{W}^V\):查询、键、值的投影权重矩阵
\(\mathbf{e}_i\):第 \(i\) 个特征域或第 \(i\) 个物品的嵌入向量
\(\mathbf{E}\):码本矩阵,包含 \(K\) 个码字(codeword)
\(\mathbf{z}_e\):编码器的连续潜在输出向量
\(\mathbf{z}_q\):向量量化后的离散近似向量
\(K\):码本大小(码字数量)或专家网络数量
\(L\):残差量化(RQ-VAE)的量化层数
\(\text{sg}[\cdot]\):停止梯度算子(stop-gradient),阻断梯度传递
函数和运算符¶
\(f(\cdot)\):函数
\(\log(\cdot)\):自然对数
\(\exp(\cdot)\):指数函数
\(\mathbf{1}_{\mathcal{X}}\):指示函数
\((\cdot)^\top\):向量或矩阵的转置
\(\mathbf{X}^{-1}\):矩阵的逆
\(\odot\):按元素相乘(Hadamard 积)
\(\oplus\):向量拼接(concatenation)
\([\cdot, \cdot]\):连结
\(\langle \mathbf{x}, \mathbf{y} \rangle\):向量 \(\mathbf{x}\) 和 \(\mathbf{y}\) 的点积
\(\|\cdot\|_p\):\(L_p\) 正则
\(\|\cdot\|\):\(L_2\) 正则
\(\sigma(\cdot)\):Sigmoid 函数,\(\sigma(x) = 1/(1+e^{-x})\)
\(\text{softmax}(\cdot)\):Softmax 归一化函数
\(\text{ReLU}(\cdot)\):线性整流函数,\(\text{ReLU}(x) = \max(0, x)\)
\(\text{tanh}(\cdot)\):双曲正切函数
\(\sum\):连加
\(\prod\):连乘
\(\overset{\text{def}}{=}\):定义
\(\arg\max\),\(\arg\min\):取最大值/最小值时对应的参数
微积分¶
\(\frac{dy}{dx}\):\(y\) 关于 \(x\) 的导数
\(\frac{\partial y}{\partial x}\):\(y\) 关于 \(x\) 的偏导数
\(\nabla_{\mathbf{x}} y\):\(y\) 关于 \(\mathbf{x}\) 的梯度
\(\int_a^b f(x) \, dx\):\(f\) 在 \(a\) 到 \(b\) 区间上关于 \(x\) 的定积分
\(\int f(x) \, dx\):\(f\) 关于 \(x\) 的不定积分
概率与信息论¶
\(P(\cdot)\):概率分布
\(z \sim P\):随机变量 \(z\) 具有概率分布 \(P\)
\(P(X \mid Y)\):\(X\) 给定 \(Y\) 的条件概率
\(p(x)\):概率密度函数
\(E_z[f(x)]\):函数 \(f\) 对 \(z\) 的数学期望
\(X \perp Y\):随机变量 \(X\) 和 \(Y\) 是独立的
\(\text{Var}(X)\):随机变量 \(X\) 的方差
\(\sigma_X\):随机变量 \(X\) 的标准差
\(\mathcal{L}\):损失函数(目标函数)
\(D_\text{KL}(P \| Q)\):\(P\) 和 \(Q\) 的 KL 散度
\(H(X)\):随机变量 \(X\) 的熵
扩散模型¶
\(x_0\):原始数据样本
\(x_t\):经过 \(t\) 步前向加噪后的含噪潜变量
\(T\):扩散过程总步数
\(\beta_t \in (0, 1)\):第 \(t\) 步的噪声强度系数
\(\alpha_t = 1 - \beta_t\):第 \(t\) 步的信号保留率
\(\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i\):累积信号保留率
\(\varepsilon \sim \mathcal{N}(0, \mathbf{I})\):标准高斯噪声
\(\varepsilon_\theta(x_t, t)\):噪声预测网络(以 \(\theta\) 为参数)
\(q(x_t \mid x_{t-1})\):前向扩散过程的条件分布
\(p_\theta(x_{t-1} \mid x_t)\):以 \(\theta\) 为参数的逆向去噪分布
复杂度¶
\(\mathcal{O}\):大 \(O\) 标记