2.2. 向量召回¶
虽然协同过滤技术在推荐系统发展史上扮演了重要角色,但当面对数亿用户和数千万商品的工业级规模时,传统方法开始暴露出根本性的局限。完整的用户-物品交互矩阵变得难以处理,数据的极度稀疏性使得有效信号稀缺,冷启动问题也始终无法得到根本解决。更重要的是,传统协同过滤方法在信息融合能力上的不足,限制了对用户画像、物品属性等多维数据的有效利用。
为了解决这些问题,向量召回技术被提出。它的核心思想源自一个简单而深刻的洞察——既然我们无法直接处理庞大的交互矩阵,为什么不将用户和物品都“压缩”成向量,然后在向量空间中进行搜索呢?
这种思想的灵感来自自然语言处理领域的嵌入(Embedding)技术。Word2Vec通过分析大量文本中词语的共现关系,能够为每个词学习一个稠密的向量表示,使得语义相近的词在向量空间中距离更近。这种嵌入技术的核心价值在于,它能够将离散的符号(如词语)映射到连续的向量空间中,让“距离”具有了语义意义。召回技术借鉴了这一嵌入思想,将用户和物品都映射到同一个向量空间中,让“距离”代表“相似度”。
在向量空间中,推荐问题得到了根本性的简化。原本需要遍历巨大交互矩阵的召回过程,转变为在高维向量空间中根据一个“查询”向量快速搜索出距离最近的K个物品向量。这种转变不仅大幅提升了计算效率,还通过向量的表示能力捕捉到了更深层次的语义相似性。
向量召回技术主要沿着两条路径发展。i2i(Item-to-Item)召回(2.2.1节)专注于计算物品与物品之间的相似性。u2i(User-to-Item)召回(2.2.2节)则直接匹配用户与物品。
接下来,我们将深入探讨这两大技术路径的演进历程,看看工业界是如何在实践中不断完善和创新这些核心思想的。