第十六章:潜在语义分析(Latent Semantic Analysis)
16.1 引言
16.1.1 词-文档矩阵的高维稀疏问题
在自然语言处理与信息检索的诸多任务中,文本数据首先需要被转化为机器可计算的数值形式。在诸多文本表示方法中,词-文档矩阵(Term-Document Matrix)是一种经典且直观的概念。设语料库包含 \(n\) 篇文档,词汇表包含 \(m\) 个独立词项,则词-文档矩阵 \(X = [x_{ij}] \in \mathbb{R}^{m \times n}\),其中第 \(i\) 行第 \(j\) 列的元素 \(x_{ij}\) 表示第 \(i\) 个词在第 \(j\) 篇文档中的出现频次或权重。这种表示方法将非结构化的文本转化为结构化的矩阵形式,从而使线性代数工具得以应用于文本分析。
然而,词-文档矩阵在实际应用中面临严峻的高维稀疏问题。在真实语料库中,词汇量 \(m\) 往往达到数万甚至数十万,而每篇文档涉及的词汇只是其中极小的一部分。以一个包含 \(10,000\) 个词和 \(5,000\) 篇文档的语料库为例,矩阵 \(X\) 的总元素个数高达 \(5 \times 10^7\),但若平均每篇文档仅涉及 \(500\) 个词,则非零元素的比例仅为 \(\frac{500}{10000} = 5\%\),实际语料中这一比例往往更低。这种稀疏性带来多重困境:大量零元素造成存储资源的浪费,高维空间中的距离计算容易受到维度灾难的影响,样本之间的距离趋于均匀化,使得相似性度量失效。此外,稀疏矩阵的统计可靠性差,单次频次信息容易受到随机噪声的干扰,难以捕捉稳定的语义模式。
16.1.2 传统文本表示方法的瓶颈
针对高维稀疏问题,传统的文本表示方法如词袋模型(Bag of Words, BoW)和 TF-IDF(Term Frequency-Inverse Document Frequency)虽然能够在一定程度上衡量词的重要性,但本质上仍停留在词汇层面的显式表示。这些方法无法揭示词汇之间深层的语义关联。例如,“计算机”和“电脑”指代同一概念,却被处理为完全不同的两个词项;“苹果”可能指水果也可能指公司,但在传统模型中无法根据上下文加以区分。这种词汇鸿沟(Vocabulary Gap)问题严重制约了信息检索系统的性能:当用户使用“个人电脑”这一查询词时,包含“计算机”一词的相关文档可能无法被正确召回,即使两者在语义上高度相关。
16.1.3 潜在语义分析的核心思想
潜在语义分析(Latent Semantic Analysis, LSA),又称潜在语义索引(Latent Semantic Indexing, LSI),正是为解决上述问题而提出的一种文本语义表示方法。LSA 的核心思想是利用奇异值分解(Singular Value Decomposition, SVD)技术对词-文档矩阵进行降维,将高维稀疏的词汇表示映射到一个低维稠密的潜在语义空间(Latent Semantic Space)。在这个隐含的空间中,语义相关的词汇和文档在几何位置上彼此接近,从而在很大程度上消除了同义词和多义词带来的噪声干扰。
LSA 由 Deerwester 等人于 1990 年首次正式提出,最初应用于信息检索领域的同义词检索问题,此后逐渐成为文本挖掘和自然语言处理的基础技术之一。与传统词匹配方法的根本区别在于,LSA 不依赖于词项的精确匹配,而是通过统计共现模式挖掘深层的潜在语义结构。
16.2 词-文档共现矩阵与TF-IDF权重
16.2.1 词-文档共现矩阵的构建
词-文档共现矩阵是 LSA 的输入数据。设语料库包含 \(n\) 篇文档,词汇表包含 \(m\) 个独立的词项,则词-文档共现矩阵定义为 \(X = [x_{ij}] \in \mathbb{R}^{m \times n}\),其中 \(x_{ij}\) 表示第 \(i\) 个词在第 \(j\) 篇文档中的权重。权重的计算方式直接影响 LSA 的效果,常见的权重策略包括以下几种。
二值权重是最简单的一种:\(x_{ij} = 1\) 表示词 \(i\) 在文档 \(j\) 中至少出现一次,\(x_{ij} = 0\) 表示未出现。这种方法简单直观,但完全忽略了词频差异,信息损失较大。
词频权重(Term Frequency)定义为 \(x_{ij} = \text{tf}_{ij}\),其中 \(\text{tf}_{ij}\) 为词 \(i\) 在文档 \(j\) 中的出现次数。这种方法考虑了词的活跃程度,但对高频词(如“的”“了”等功能词)赋予过大权重,区分度不足。
16.2.2 TF-IDF权重计算
TF-IDF权重是信息检索领域中最广泛使用的权重方案,它同时考虑了词在单篇文档中的出现频率和该词在整个语料库中的分布特性。TF-IDF 的定义由两部分组成:词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。
词频 \(\text{tf}_{ij}\) 表示词 \(i\) 在文档 \(j\) 中的出现次数。逆文档频率的定义基于文档频次 \(\text{df}_i\)——即包含词 \(i\) 的文档数量。词 \(i\) 的 IDF 值为:
其中 \(n\) 为语料库中的文档总数。直观理解是:一个词在越少的文档中出现,其区分能力越强,IDF 值越高;若一个词出现在几乎所有文档中(如停用词),则其 IDF 值接近零,几乎不提供任何区分信息。
综合两部分,TF-IDF 权重定义为:
在实际应用中,通常会对 TF-IDF 值做进一步的对数压缩或归一化处理,以减少极端值的影响并提升向量表示的稳定性。常见的归一化方法为余弦归一化:
16.2.3 文本预处理流程
在构建词-文档矩阵之前,需要对原始文本进行一系列预处理操作,以提升矩阵质量和后续分析效果。
分词(Tokenization)是中文文本处理的第一步。由于中文词与词之间没有显式的分隔符,需要使用分词算法(如正向最大匹配法、逆向最大匹配法或基于语言模型的分词方法)将连续的字序列切分为独立的词。对于英文文本,则主要通过空格和标点进行词级切分,并进行词形还原(Lemmatization)或词干提取(Stemming)以统一不同形式的词汇变形。
停用词过滤(Stopword Removal)去除在语料库中过于普遍且缺乏区分能力的词汇。中文停用词包括“的”“了”“在”“是”等,英文停用词包括"the""a""of""is"等。停用词表的构建既可基于通用的经验列表,也可通过文档频次阈值自动确定——若词出现在超过 90% 的文档中,通常被认为是停用词候选。
低频词过滤同样重要。出现次数极少的词(如仅在 1~2 篇文档中出现的词)统计上不可靠,且会显著增加矩阵的稀疏性。常见的做法是设定一个最低文档频次阈值,低于该阈值的词项将被剔除。这一步骤在减少矩阵维度的同时,也过滤了大量噪声信息。
16.3 奇异值分解与降维原理
16.3.1 奇异值分解的定义
奇异值分解(Singular Value Decomposition, SVD)是线性代数中一种极为重要的矩阵分解方法,被认为是矩阵分析中最重要的工具之一。对于任意实矩阵 \(X \in \mathbb{R}^{m \times n}\),SVD 将其分解为三个矩阵的乘积:
其中,\(U = [u_1, u_2, \ldots, u_m] \in \mathbb{R}^{m \times m}\) 是由左奇异向量组成的正交矩阵,满足 \(U^{\top}U = I_m\);\(V = [v_1, v_2, \ldots, v_n] \in \mathbb{R}^{n \times n}\) 是由右奇异向量组成的正交矩阵,满足 \(V^{\top}V = I_n\);\(\Sigma = \text{diag}(\sigma_1, \sigma_2, \ldots, \sigma_r) \in \mathbb{R}^{m \times n}\) 是准对角矩阵,其中 \(r = \rank(X)\),且奇异值满足 \(\sigma_1 \geqslant \sigma_2 \geqslant \cdots \geqslant \sigma_r > 0\),其余行列均为零。
SVD 的核心性质在于:矩阵 \(X\) 的秩 \(r\) 等于非零奇异值的个数,且 \(X\) 可以由这三组正交基和奇异值完全确定。奇异值 \(\sigma_k\) 衡量了对应成分在矩阵 \(X\) 中所携带的信息量(或能量)的相对大小。从信号处理的角度,奇异值可以理解为矩阵在不同正交方向上的信号强度。
16.3.2 奇异值分解的几何解释
从几何角度理解,SVD 将原始数据空间中的样本映射到一组由奇异向量张成的正交坐标系中。具体而言,\(U\) 的列向量 \(\{u_i\}\) 构成了词空间(Term Space)中的一组正交基,\(V\) 的列向量 \(\{v_j\}\) 构成了文档空间(Document Space)中的一组正交基。矩阵 \(X\) 可以看作是从文档空间到词空间的线性算子。
SVD 分解的另一种等价表述是秩-1 外积展开形式:
其中每一项 \(\sigma_k u_k v_k^{\top}\) 是一个秩为 1 的矩阵,描述了第 \(k\) 个潜在语义因子对词-文档关系的贡献。外积 \(\sigma_k u_k v_k^{\top}\) 的第 \(i\) 行第 \(j\) 列元素为 \(\sigma_k u_{ik} v_{jk}\),表示词 \(i\) 与文档 \(j\) 在第 \(k\) 个语义因子上的关联强度。整个矩阵 \(X\) 被分解为 \(r\) 个秩-1 矩阵的加权和。
16.3.3 SVD与降维的内在联系
奇异值分解与降维之间的内在联系体现在奇异值的大小排序上。由于 \(\sigma_1 \geqslant \sigma_2 \geqslant \cdots \geqslant \sigma_r\),前几个最大的奇异值对应了矩阵中最主要的结构信息。这与主成分分析(PCA)的思想高度一致——PCA 通过保留方差最大的正交方向来实现降维,而 SVD 的左奇异向量正好对应了 \(XX^{\top}\) 的特征向量(即 PCA 的主成分方向),右奇异向量对应了 \(X^{\top}X\) 的特征向量。
在文本分析中,词-文档矩阵 \(X\) 的前 \(k\) 个最大奇异值及其对应的奇异向量编码了文本语料中最主要的语义模式。那些较小的奇异值通常对应于噪声或无关信息——可能是由词汇使用的随机性、文本中的异常内容或数据采集误差等因素引起的。通过截断这些较小奇异值的影响,可以在保留主要语义结构的同时有效过滤噪声。
16.4 截断奇异值分解与主题提取
16.4.1 截断SVD的定义与近似误差
在完整的 SVD 分解 \(X = U \Sigma V^{\top}\) 中,所有 \(r\) 个非零奇异值及其对应的奇异向量都被保留。然而,从信息论和统计学习的角度来看,真正有意义的语义结构通常仅由前 \(k\) 个最大的奇异值决定,其中 \(k \ll r\)。这是因为语言的冗余性和语义的多样性使得大量词汇之间存在内在的相关性,导致有效自由度远小于词汇表规模。
截断奇异值分解(Truncated SVD)通过仅保留前 \(k\) 个最大奇异值及其对应的奇异向量来近似原始矩阵:
其中 \(\tilde{U} \in \mathbb{R}^{m \times k}\),\(\tilde{\Sigma} = \text{diag}(\sigma_1, \sigma_2, \ldots, \sigma_k) \in \mathbb{R}^{k \times k}\),\(\tilde{V} \in \mathbb{R}^{n \times k}\)。
截断 SVD 的近似误差由被丢弃的奇异值平方和决定。设矩阵的 Frobenius 范数为 \(\|A\|_F = \sqrt{\sum_{i,j} a_{ij}^2}\),则近似误差为:
由于奇异值按降序排列,前 \(k\) 个奇异值通常占据了整体能量的绝大部分。经验上,保留前 \(50\) 到 \(300\) 个奇异值往往能够在降噪和保留信息之间取得良好的平衡。
16.4.2 潜在语义空间的构建
将 SVD 应用于词-文档矩阵 \(X\),得到分解 \(X = U \Sigma V^{\top}\)。潜在语义空间(Latent Semantic Space)的构建基于以下关键洞察:尽管词汇表包含 \(m\) 个词、文档集包含 \(n\) 篇文档,但文本数据所表达的语义主题的数量——即 \(r\)——通常远小于 \(m\) 和 \(n\)。
在 SVD 的框架下,矩阵 \(U\) 的前 \(k\) 列(对应前 \(k\) 个最大的奇异值)构成了一个 \(k\) 维的词潜在语义空间。每个词 \(i\) 在该空间中的表示为向量:
类似地,矩阵 \(V\) 的前 \(k\) 列构成了一个 \(k\) 维的文档潜在语义空间。每篇文档 \(j\) 在该空间中的表示为:
通过这种映射,语义相关的词和文档在潜在语义空间中彼此接近。例如,"计算机""电脑""处理器"等在原始词空间中可能是完全独立的正交基向量(因为词-文档矩阵的稀疏性,它们在共现关系上差异较大),但在潜在语义空间中,由于它们倾向于出现在相似的文档上下文中,对应的低维表示将非常接近。
16.4.3 主题数的选择策略
选择合适的截断维度 \(k\)(即主题数)是 LSA 应用中的一个关键超参数。\(k\) 值过小会导致过度压缩,不同主题被混杂在一起,模型欠拟合;\(k\) 值过大则无法充分过滤噪声,模型过拟合,同时丢失了截断 SVD 的降维优势。
常用的 \(k\) 值选择策略包括以下几种。能量阈值法设定一个信息保留比例阈值 \(\theta\)(通常取 \(80\%\) 到 \(95\%\)),选择使前 \(k\) 个奇异值的平方和占比达到 \(\theta\) 的最小 \(k\) 值:
交叉验证法将数据划分为训练集和验证集,在训练集上进行截断 SVD,在验证集上评估检索精度或重建误差,选择使验证指标最优的 \(k\)。Scree 曲线法绘制奇异值 \(\sigma_i\) 随 \(i\) 变化的曲线(类似于主成分分析中的碎石图),寻找曲线“拐点”——即奇异值下降速度由快转慢的位置,该位置对应的 \(i\) 即为合理的 \(k\) 值估计。
16.5 潜在语义分析的优点
LSA 作为一种经典的文本语义表示方法,具有以下显著优点。
16.5.1 消除同义词的语义鸿沟
同义词问题是传统词匹配方法的核心困难之一。用户在查询中使用的词汇未必与相关文档中使用的词汇完全一致,但两者在语义上是等价的。例如,用户查询“个人电脑”时,相关文档可能使用“计算机”或“笔记本”等同义词。使用传统 TF-IDF 或词袋模型,这类查询将无法召回包含同义词但不含查询词本身的文档。
LSA 通过将词和文档映射到潜在语义空间来解决这一根本性问题。在潜在语义空间中,同义词由于具有相似的文档共现模式,它们的向量表示将彼此接近。当用户查询“个人电脑”时,LSA 可以在潜在语义空间中计算查询向量与所有文档向量的相似度,从而召回语义相关但用词不同的文档。这种基于语义的检索能力是 LSA 最突出和最重要的优势。
16.5.2 捕捉深层次语义关联
LSA 不仅能够处理同义词问题,还能够发现词汇之间更一般的语义关联。这些关联不限于严格的同义词关系,还可能包括上下位词关系(如“狗”→“动物”)、整体-部分关系(如“汽车”→“发动机”)、事件关联(如“总统”→“选举”)等多种类型的语义联系。这些关系在词-文档共现矩阵中以隐含的统计模式存在,LSA 通过 SVD 降维将它们显式化为潜在语义空间中的几何距离关系。
这种能力使得 LSA 能够支持语义搜索——即不仅匹配字面上的词汇,而且理解查询和文档的语义内容。在信息检索领域,这代表着从“字面匹配”到“语义理解”的重要飞跃,是 LSA 对传统信息检索技术最具价值的补充。
16.5.3 降噪与去冗余效果
截断 SVD 本质上是主成分分析(PCA)思想在词-文档矩阵上的应用。在保留前 \(k\) 个最大奇异值的过程中,矩阵中那些由高频但无信息量的词汇(如残留的停用词)以及由随机噪声引起的微小变异模式被有效过滤掉。换言之,截断 SVD 将原始数据中的“信号”(即主要语义结构)从“噪声”中分离出来,保留前者而丢弃后者。
这种降噪效果在多项文本处理任务中表现出更好的鲁棒性和泛化能力。例如,在文本分类任务中,基于 LSA 表示的分类器往往比基于原始 TF-IDF 向量的分类器具有更好的性能,尤其是在训练数据有限的情况下。因为 LSA 的降维过程等价于一种正则化形式,它减少了过拟合的风险。
16.5.4 词与文档的统一表示
在 LSA 框架下,词和文档被映射到同一个 \(k\) 维潜在语义空间。这意味着词和文档可以在同一空间中进行直接的比较和运算。具体而言,词 \(i\) 的表示为 \(\tilde{u}_i \in \mathbb{R}^k\),文档 \(j\) 的表示为 \(\tilde{v}_j \in \mathbb{R}^k\)。查询 \(q\) 可以表示为词汇表上权重向量的形式,然后同样投影到潜在语义空间中进行相似度计算。
这种统一的表示为信息检索、文本聚类、协同过滤等多种任务提供了共同的基础。特别是在信息检索中,查询向量和文档向量可以在同一潜在语义空间中直接用余弦相似度进行比较,克服了传统向量空间模型中词项维度不匹配的问题。
16.6 潜在语义分析的局限性
尽管 LSA 在文本语义表示方面取得了显著成功,但它也存在一些固有的局限性,在实际应用中需要充分考虑。
16.6.1 线性方法的本质局限
LSA 的核心算法是奇异值分解,而 SVD 是一种线性降维方法。这意味着 LSA 只能捕捉词-文档矩阵中线性叠加的统计规律,而无法刻画非线性语义结构。在真实的自然语言中,语义关系往往是高度非线性的。例如,情感极性可能取决于词与词之间的否定关系(“不好”与“好”的情感截然相反)、程度修饰(“非常好”与“好”的情感强度差异巨大),以及上下文相关的语义组合(如“这部电影不错”与“这部电影不不错”在语义上的微妙差别)。这些非线性特征超出了 LSA 的线性建模能力。
为克服这一局限,后续研究者提出了多种非线性扩展方法。核主成分分析(Kernel PCA)通过将数据映射到高维特征空间,在隐式意义上实现非线性降维。而近年来风靡的深度学习方法(如词嵌入 Word2Vec 和变换器模型 Transformer)通过非线性神经网络学习更加丰富的语义表示,在很大程度上突破了 LSA 的线性限制。
16.6.2 多义词问题的挑战
LSA 虽然擅长解决同义词问题,但对多义词(Polysemy)的处理能力明显不足。多义词是指同一个词具有多个不同语义的现象,例如“苹果”可以指水果也可以指公司,“芯片”可以指食品原料也可以指半导体元件。在 LSA 中,每个词被映射为潜在语义空间中的一个固定向量,这个向量本质上是该词在所有上下文中语义的一种混合(平均)表示。
当用户查询“苹果公司”时,包含“苹果”一词的新闻文档可能涉及水果“苹果”的价格报道,也可能是关于苹果公司(AAPL)的科技新闻。由于 LSA 无法区分“苹果”的不同语义,它可能错误地将这两类语义截然不同的文档放在相似的位置。
概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)和潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)等方法通过为每个词引入主题混合比例的建模,在一定程度上缓解了多义词问题。近年来,基于上下文动态生成词表示的预训练语言模型(如 BERT、GPT 等)则从根本上革新了多义词处理能力,它们能够根据词所处的上下文动态地产生该词的向量表示。
16.6.3 主题可解释性的模糊性
在 LSA 中,潜在语义空间中的每个维度(即每个潜在主题)并不具有天然的语义标签。这些维度是从数学上优化得到的最大方差方向,虽然在统计上是最优的,但语义上往往难以直接解释。例如,第 3 个潜在维度可能混合了体育、科技和娱乐等多个方面的信息,没有明确的语义对应。
这种可解释性(Interpretability)问题限制了 LSA 在需要强可解释性场景中的应用。例如,在法律文档分析或医疗记录挖掘中,分析人员往往需要理解每个潜在维度背后的具体语义主题,而 LSA 无法直接提供这一信息。相比之下,LDA 等基于概率生成模型的方法通过引入 Dirichlet 先验,在一定程度上鼓励了主题的稀疏性和可解释性,但其可解释性仍然有限。
16.6.4 计算复杂度与增量更新困难
对于大规模的词-文档矩阵(\(m\) 和 \(n\) 达到百万量级),SVD 分解的计算复杂度为 \(O(\min(m^2 n, m n^2))\)。当词汇表和文档集都很大时,这一复杂度可能导致计算瓶颈。虽然随机化 SVD(Randomized SVD)等技术可以在近似意义上显著加速分解,但精确的截断 SVD 仍需要完整的矩阵分解计算。
更关键的局限性在于,LSA 不支持增量学习(Incremental Learning)。当新文档加入语料库时,需要重新计算整个矩阵的 SVD 分解,代价高昂。这与需要实时处理动态数据的应用场景(如新闻流排序、社交媒体监控)形成了根本性的矛盾。一些在线 LSA(Online LSA)方法尝试通过增量更新奇异值来缓解这一问题,但尚未完全解决。
16.7 应用场景与公式汇总
16.7.1 信息检索系统
在信息检索(Information Retrieval, IR)领域,LSA 最早也是最经典的应用场景是语义信息检索系统。传统的检索系统(如向量空间模型加余弦相似度)基于词项精确匹配,容易受到同义词和词汇差异的影响。LSA 通过将查询和文档映射到潜在语义空间,实现了基于语义的检索能力。
具体而言,给定查询 \(q\)(表示为 \(m\) 维词权重向量),首先将其投影到 \(k\) 维潜在语义空间:
其中 \(\tilde{\Sigma}^{-1}\) 是截断奇异值矩阵的逆(仅对角线元素取倒数)。然后计算查询向量与所有文档向量的余弦相似度:
返回相似度最高的前 \(t\) 篇文档作为检索结果。大量实验表明,LSA 在多个标准信息检索基准数据集上显著优于基于词匹配的基线方法,尤其在处理同义词丰富的查询时优势更为突出。
16.7.2 文本聚类与分类
文本聚类(Text Clustering)是将文档集合划分为若干语义相关簇的无监督学习任务。LSA 为文本聚类提供了一种极为有效的降维预处理手段。通过截断 SVD 将文档表示从高维稀疏的词空间映射到低维稠密的潜在语义空间后,可以使用 \(k\)-means、层次聚类或谱聚类等经典聚类算法对文档进行分组。
在潜在语义空间中,文档的表示维度从 \(m\)(词汇表大小,通常数万)降至 \(k\)(潜在主题数,通常数十到数百),这不仅大幅降低了计算复杂度,而且有效减少了稀疏噪声的干扰,使聚类算法能够更准确地捕捉文档之间的语义相似性。在文本分类任务中,基于 LSA 表示的分类器同样表现出较好的泛化性能。
16.7.3 推荐系统与协同过滤
LSA 的思想也被成功应用于推荐系统(Recommender Systems)中的协同过滤(Collaborative Filtering)任务。在用户-物品评分矩阵中,矩阵的行对应用户,列对应物品(如电影、商品),元素为用户对物品的评分。由于用户和物品的数量都可能达到百万级,且每个用户通常只对极少数物品有过评分行为,因此用户-物品评分矩阵同样是高维稀疏矩阵。
对用户-物品评分矩阵进行截断 SVD 分解,可以提取用户和物品在潜在特征空间中的表示。设用户-物品评分矩阵为 \(R \in \mathbb{R}^{u \times v}\),截断 SVD 为 \(R \approx \tilde{U} \tilde{\Sigma} \tilde{V}^{\top}\),则用户 \(i\) 的潜在特征向量为 \(\tilde{U}\) 的第 \(i\) 行经奇异值缩放后的结果,物品 \(j\) 的潜在特征向量为 \(\tilde{V}\) 的第 \(j\) 行。通过计算用户向量与物品向量之间的内积或余弦相似度,可以预测用户对未评分物品的偏好,并据此生成个性化推荐列表。
16.7.4 公式汇总表
为便于读者快速查阅,本章涉及的核心公式汇总如下:
| 序号 | 公式名称 | 公式描述 |
|---|---|---|
| (16.1) | 词-文档矩阵 | \(X = [x_{ij}] \in \mathbb{R}^{m \times n}\),\(x_{ij}\) 为词 \(i\) 在文档 \(j\) 中的权重 |
| (16.2) | TF-IDF权重 | \(x_{ij} = \text{tf}_{ij} \cdot \log \frac{n}{\text{df}_i}\) |
| (16.3) | IDF定义 | \(\text{idf}_i = \log \frac{n}{\text{df}_i}\) |
| (16.4) | SVD分解 | \(X = U \Sigma V^{\top}\),\(U^{\top}U = I_m\),\(V^{\top}V = I_n\) |
| (16.5) | SVD外积展开 | \(X = \sum_{k=1}^{r} \sigma_k u_k v_k^{\top}\) |
| (16.6) | 截断SVD近似 | \(\tilde{X} = \tilde{U} \tilde{\Sigma} \tilde{V}^{\top}\) |
| (16.7) | 词潜在向量 | \(\tilde{u}_i = (\sigma_1 u_{i1}, \ldots, \sigma_k u_{ik})^{\top}\) |
| (16.8) | 文档潜在向量 | \(\tilde{v}_j = (\sigma_1 v_{j1}, \ldots, \sigma_k v_{jk})^{\top}\) |
| (16.9) | 近似误差 | \(\|X - \tilde{X}\|_F^2 = \sum_{i=k+1}^{r} \sigma_i^2\) |
| (16.10) | 能量保留比例 | \(\frac{\sum_{i=1}^{k} \sigma_i^2}{\sum_{i=1}^{r} \sigma_i^2} \geqslant \theta\) |
| (16.11) | 查询投影 | \(q' = \tilde{\Sigma}^{-1} \tilde{U}^{\top} q\) |
| (16.12) | 余弦相似度 | \(\text{sim}(q', \tilde{v}_j) = \frac{q'^{\top} \tilde{v}_j}{\|q'\|\|\tilde{v}_j\|}\) |
参考文献
1。 Deerwester, S。, Dumais, S。T。, Furnas, G。W。, Landauer, T。K。, & Harshman, R。 (1990)。 Indexing by latent semantic analysis。 Journal of the American Society for Information Science, 41(6), 391–407。
2。 Berry, M。W。, Dumais, S。T。, & O'Brien, G。W。 (1995)。 Using linear algebra for intelligent information retrieval。 SIAM Review, 37(4), 573–595。
3。 Hofmann, T。 (1999)。 Probabilistic latent semantic analysis。 Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, 289–296。
4。 Blei, D。M。, Ng, A。Y。, & Jordan, M。I。 (2003)。 Latent Dirichlet allocation。 Journal of Machine Learning Research, 3, 993–1022。
5。 李航。统计学习方法(第2版)。清华大学出版社,2019。