跳转至

第十二章:无监督学习概述

12.1 引言

机器学习根据数据是否拥有标签信息可分为三大类:监督学习、无监督学习和强化学习。其中,无监督学习(Unsupervised Learning)是指从无标签数据中学习隐藏结构与规律的一类学习方法。与监督学习不同,无监督学习不依赖人工标注的标签,而是通过数据内部的潜在分布特征来提取有价值的信息。无监督学习在数据分析、特征发现、知识抽取等场景中具有不可替代的作用。

在实际应用中,我们往往面对海量未标注数据。标注数据需要耗费大量人力物力,而无监督学习能够充分利用这些无标签数据进行模式发现。例如,在电商平台中,我们可以通过聚类分析发现用户群体特征;在图像处理中,可以通过降维技术提取图像的主要特征;在文本分析中,可以通过概率模型发现主题结构。无监督学习因此成为现代机器学习的重要组成部分。

12.2 无监督学习的基本框架

无监督学习的核心目标是发现数据中潜在的结构性知识。给定一个数据集 \(X = \{x_1, x_2, \ldots, x_n\}\),其中每个样本 \(x_i\)\(d\) 维向量,无监督学习试图学习数据生成的潜在机制或数据的内在规律。这一过程可以形式化地描述为寻找一个映射 \(f: \mathbb{R}^d \rightarrow \mathcal{S}\),其中 \(\mathcal{S}\) 是我们希望发现的结构空间。

从概率统计的角度来看,无监督学习可以理解为对数据分布的估计与建模。假设数据是从某个隐含的分布 \(p(x)\) 中独立抽取的,无监督学习的目标就是学习这个分布或其相关的性质。这一分布可能具有复杂的结构,我们通常假设它由一些潜在变量 \(z\) 控制,即 \(p(x) = \int p(x|z)p(z)dz\)。这种潜在变量模型构成了无监督学习的概率学基础。

无监督学习的评价机制与监督学习有本质区别。由于没有标签,我们无法直接计算预测误差或准确率。常用的评价指标包括:重构误差(如主成分分析中的重建误差)、似然值(数据在模型下的概率)、聚类指标(如轮廓系数、Calinski-Harabasz指数)、基于下游任务的间接评价等。这些指标从不同角度反映了模型发现结构的质量。

12.3 降维方法

降维(Dimensionality Reduction)是无监督学习的重要任务之一,其目标是将高维数据映射到低维空间,同时尽可能保留数据中的重要信息。降维在数据可视化、特征提取、计算效率提升等方面具有重要价值。根据是否保留数据的全局或局部结构,降维方法可分为线性降维与非线性降维两大类。

12.3.1 线性降维方法

线性降维方法假设高维数据位于一个低维线性子空间中,通过线性变换实现降维。最典型的线性降维方法是主成分分析(Principal Component Analysis, PCA)。PCA寻找数据方差最大的正交方向,将数据投影到这些主成分张成的低维空间中。

给定数据矩阵 \(X \in \mathbb{R}^{n \times d}\),设其均值为零,PCA求解如下特征值问题:

\[Cov(X) = \frac{1}{n}X^TX = U\Sigma U^T\]

其中 \(Cov(X)\) 是协方差矩阵,\(U\) 是特征向量矩阵,\(\Sigma\) 是特征值对角矩阵。选取前 \(k\) 个最大特征值对应的特征向量构成投影矩阵 \(U_k\),则降维后的数据为 \(Z = XU_k \in \mathbb{R}^{n \times k}\)。PCA的优化目标可以表示为:

\[\min_{U_k, Z} \|X - ZU_k^T\|_F^2 \quad \text{s.t.} \quad U_k^TU_k = I_k\]

另一个经典的线性降维方法是线性判别分析(Linear Discriminant Analysis, LDA),但LDA主要用于监督降维场景。因子分析(Factor Analysis)则从概率生成模型的角度假设数据由低维潜在因子生成,是PCA的概率扩展。

12.3.2 非线性降维方法

当数据的内在结构是非线性的时候,线性降维方法会失效。非线性降维方法能够发现数据的非线性流形结构。等距映射(Isomap)通过保持测地距离来学习数据的全局结构;局部线性嵌入(Locally Linear Embedding, LLE)则通过保持数据的局部邻域结构来实现降维。

t-SNE(t-distributed Stochastic Neighbor Embedding)是目前最广泛使用的非线性降维方法之一,特别适用于高维数据的可视化。t-SNE通过优化KL散度来使得高维空间中的相似概率分布与低维空间中的相似概率分布相匹配:

\[KL(P \| Q) = \sum_{i \neq j} p_{ij} \log \frac{p_{ij}}{q_{ij}}\]

其中 \(p_{ij}\) 表示高维空间中点 \(i\)\(j\) 的相似度,\(q_{ij}\) 表示低维嵌入空间中对应点的相似度。t-SNE使用重尾的t分布来计算低维空间中的相似度,这使得它在保持局部结构的同时也能较好地保留全局结构。

UMAP(Uniform Manifold Approximation and Projection)是近年来提出的另一种强大的非线性降维方法,它基于黎曼几何和拓扑学的理论,能够更好地保持数据的全局结构,同时计算效率高于t-SNE。

12.4 聚类方法

聚类(Clustering)是将数据集中的样本划分为若干个互不相交的簇(Cluster)的过程,同一簇内的样本具有较高的相似性,而不同簇之间的样本差异较大。聚类是无监督学习中最直观的任务之一,广泛应用于客户细分、图像分割、异常检测等领域。

12.4.1 基于距离的聚类方法

K-Means是最经典的基于距离的聚类算法。算法将每个样本划分到距离最近的簇中心对应的簇中,并通过迭代更新簇中心来最小化样本到簇中心的距离平方和(簇内平方和,WCSS):

\[\min_{C_1,\ldots,C_k} \sum_{j=1}^{k} \sum_{x_i \in C_j} \|x_i - \mu_j\|^2\]

其中 \(\mu_j\) 是第 \(j\) 个簇的中心。K-Means算法通过交替进行样本分配和中心更新两个步骤,直至收敛。尽管K-Means简单高效,但它对初始中心的选择敏感,且只能发现球形簇。

层次聚类(Hierarchical Clustering)通过构建样本之间的层次结构来进行聚类,可以是自底向上的聚合层次聚类,也可以是自顶向下的分裂层次聚类。聚合层次聚类中,最常用的链接准则包括:最小距离(单链接)、最大距离(完全链接)和平均距离(平均链接)。层次聚类的结果可以用树状图(Dendrogram)表示,能够发现不同尺度的聚类结构。

12.4.2 基于密度的聚类方法

基于密度的聚类方法能够发现任意形状的簇,并且能够识别噪声点。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是最具代表性的密度聚类算法。DBSCAN通过两个参数来定义密度:邻域半径 \(\epsilon\) 和最小点数 \(MinPts\)。核心点的定义是:在其 \(\epsilon\) 邻域内至少有 \(MinPts\) 个点。

OPTICS(Ordering Points To Identify the Clustering Structure)是DBSCAN的扩展,它通过计算每个点的可达距离来建立一个排序,这个排序能够揭示数据的层次聚类结构。

HDBSCAN(Hierarchical DBSCAN)进一步扩展了OPTICS,通过构建点的层次聚类并简化得到最终的聚类结果,在处理不同密度的簇时表现出色。

12.4.3 基于概率模型的聚类方法

高斯混合模型(Gaussian Mixture Model, GMM)是基于概率模型的聚类方法。GMM假设数据由 \(k\) 个高斯分布的混合生成,每个高斯分布对应一个簇。模型的概率密度函数为:

\[p(x) = \sum_{j=1}^{k} \pi_j \mathcal{N}(x | \mu_j, \Sigma_j)\]

其中 \(\pi_j\) 是第 \(j\) 个高斯分布的混合系数,满足 \(\sum_{j=1}^{k}\pi_j = 1\)。通过期望最大化(EM)算法可以求解GMM的参数。GMM的软聚类特性使其能够处理样本属于多个簇的不确定性情况。

12.5 概率密度估计与隐变量模型

概率模型是无监督学习的重要组成部分,它通过显式地建模数据分布来进行密度估计、样本生成和知识发现。概率模型的核心任务是估计数据的联合概率分布 \(p(x)\) 或其相关的条件分布、边缘分布。

12.5.1 显式概率密度估计

显式概率密度估计方法直接对数据的概率密度函数进行建模。参数方法假设数据服从某种已知的分布形式(如高斯分布),通过极大似然估计来学习参数。核密度估计(Kernel Density Estimation, KDE)是一种非参数方法,它通过核函数叠加来估计密度:

\[\hat{p}(x) = \frac{1}{n}\sum_{i=1}^{n} K_h(x - x_i)\]

其中 \(K_h(\cdot)\) 是带宽为 \(h\) 的核函数。KDE不依赖任何分布假设,在样本量足够大时能够收敛到真实密度。

12.5.2 隐变量模型

隐变量模型假设观测数据由若干隐变量控制生成。这类模型能够发现数据的潜在结构,是无监督学习的核心方法之一。

主成分分析可以看作是概率PCA(Probabilistic PCA)的特例。概率PCA假设数据由低维潜在变量 \(z \in \mathbb{R}^k\) 线性生成:

\[x = Wz + \mu + \epsilon\]

其中 \(W \in \mathbb{R}^{d \times k}\) 是投影矩阵,\(\epsilon \sim \mathcal{N}(0, \sigma^2 I)\) 是噪声项。概率PCA通过EM算法或变分推断来学习参数。

因子分析类似于概率PCA,但允许不同维度具有不同的噪声方差。隐因子模型(Latent Factor Model)进一步扩展,能够处理离散和连续的隐变量,在推荐系统、协同过滤等领域有广泛应用。

12.5.3 生成模型与采样

生成模型不仅能够估计数据分布,还能生成与真实数据相似的新样本。变分自编码器(Variational Autoencoder, VAE)是一种深度生成模型,它通过变分推断来学习隐变量分布。VAE的损失函数包含重构损失和KL散度正则项:

\[\mathcal{L} = \mathbb{E}_{q(z|x)}[-\log p(x|z)] + KL(q(z|x) \| p(z))\]

生成对抗网络(Generative Adversarial Network, GAN)是另一种强大的生成模型,它通过对抗训练使得生成器能够产生逼真的假样本。GAN的核心思想是让生成器与判别器进行零和博弈:

\[\min_G \max_D \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]\]

自回归模型(如PixelCNN、WaveNet)通过直接对数据分布进行分解来实现生成:

\[p(x) = \prod_{i=1}^{d} p(x_i | x_1, \ldots, x_{i-1})\]

这些生成模型在图像生成、文本生成、语音合成等领域取得了突破性进展。

12.6 方法对比与综合分析

不同的无监督学习方法适用于不同类型的数据和任务。选择合适的方法需要综合考虑数据特性、任务目标、计算资源等因素。下表对主要的无监督学习方法进行了系统性对比:

方法类别 代表算法 适用场景 优点 缺点
线性降维 PCA 高维数据压缩、可视化 简单高效、可解释性强 只能处理线性结构
非线性降维 t-SNE、UMAP 高维数据可视化 能发现非线性结构 计算复杂度高、无法处理新样本
基于距离聚类 K-Means 大规模数据、球形簇 高效、可扩展 对初始中心敏感、只能发现球形簇
基于密度聚类 DBSCAN、HDBSCAN 任意形状簇、含噪声数据 能发现任意形状簇、自动确定簇数 参数敏感
概率模型聚类 GMM 软聚类、概率推断 概率解释、软聚类 对初始化敏感、可能陷入局部最优
隐变量模型 PPCA、因子分析 特征提取、潜在结构发现 可解释性强 假设线性关系
深度生成模型 VAE、GAN 样本生成、数据增强 生成质量高、应用广泛 训练不稳定、计算资源需求高

在实际应用中,降维和聚类往往结合使用。例如,我们首先使用降维方法将高维数据投影到低维空间,然后在低维空间中进行聚类分析。这种两阶段方法能够提高聚类的质量和效率。对于概率模型,我们可以将隐变量作为数据的潜在表示,用于下游的分类、回归等任务。

集成学习方法也可以应用于无监督学习。通过组合多个基础模型(如多个聚类算法)的结果,可以获得更稳定、更准确的聚类结果。类似地,集成降维方法如随机投影、集成PCA等也能够提高降维的鲁棒性。

12.7 发展方向与前沿热点

无监督学习是当前机器学习研究最活跃的领域之一。随着深度学习技术的发展和大规模无标签数据的积累,无监督学习正在经历前所未有的变革。以下是无监督学习领域的几个重要发展方向。

深度无监督学习是近年来最重要的研究方向之一。传统的无监督学习方法,如PCA、K-Means等,在处理高维复杂数据时能力有限。深度学习提供了强大的表示学习能力,能够从原始数据中自动学习层次化的特征表示。自编码器、变分自编码器、生成对抗网络等深度无监督模型在图像、语音、文本等领域取得了巨大成功。

自监督学习(Self-Supervised Learning)是近年来兴起的一种新的无监督学习范式。自监督学习通过设计 pretext tasks(代理任务)来利用数据的自身结构作为监督信号,从而学习有用的表示。代表性的方法包括:对比学习(Contrastive Learning)如SimCLR、MoCo,通过最大化同一样本的不同增强视图之间的相似性来学习表示;掩码语言建模(Masked Language Modeling)如BERT,通过预测被掩码的词元来学习文本表示;掩码图像建模(Masked Image Modeling)如MAE、BEiT,通过预测被掩码的图像块来学习视觉表示。

大规模预训练模型正在改变无监督学习的应用范式。以GPT系列为代表的大型语言模型、以CLIP为代表的视觉-语言模型、以DALL-E为代表的图像生成模型,都是在大规模无标签数据上进行无监督预训练,然后在特定任务上进行微调或提示。这种预训练-微调范式已经成为现代人工智能的标准流程。大模型展示出了惊人的涌现能力(Emergent Abilities),这些能力在小型模型上是不存在的。

图无监督学习是另一个重要方向。现实世界中的许多数据可以用图结构来表示,如社交网络、分子结构、知识图谱等。图神经网络(Graph Neural Networks)与无监督学习方法的结合,产生了图表示学习、图聚类、图生成等研究方向。图自编码器、图对比学习、图生成模型等方法在节点分类、链接预测、图分类等任务上取得了优异表现。

多模态无监督学习致力于融合来自不同模态(如图像、文本、音频)的信息进行联合学习。CLIP、DALL-E等模型通过对比学习对齐不同模态的表示,实现了跨模态的理解和生成。多模态大模型能够根据文本描述生成图像、根据图像回答问题、根据音频生成文本,展现了人工智能向通用智能迈进的潜力。

无监督学习的理论分析也是重要的研究方向。我们需要理解为什么无监督学习能够有效工作,以及在什么条件下无监督学习方法能够成功。PAC学习理论、信息论、统计物理等工具被用于分析聚类、降维、密度估计等方法的理论性质。特别地,对于深度生成模型的泛化能力、log-likelihood与生成质量的关系等问题,理论研究者正在给出越来越清晰的答案。

因果发现与无监督学习的结合是一个新兴方向。传统统计学习关注的是相关性,而因果推理关注的是变量之间的因果关系。基于约束的方法(如PC算法)、基于评分的方法(如GES算法)以及基于函数模型的方法(如NOTEARS)都在探索如何从观测数据中发现因果结构。结合深度学习的因果发现方法正在成为研究热点。

总而言之,无监督学习正在从传统的聚类、降维、概率模型向深度学习、自监督学习、大规模预训练等方向快速发展。随着数据规模的增长和计算能力的提升,无监督学习将在更多领域发挥关键作用,推动人工智能技术向更高水平迈进。

12.7 公式汇总表

编号 公式名称 公式形式 说明 类型
(12.1) 自编码器 \(\hat{\mathbf{x}} = g_\theta(f_\phi(\mathbf{x}))\) 重构输入 模型
(12.2) 重构误差 \(L = \|\mathbf{x} - \hat{\mathbf{x}}\|^2\) 均方误差 损失
(12.3) k-means目标 \(\min \sum_i \|\mathbf{x}_i - \boldsymbol{\mu}_{c_i}\|^2\) 簇内平方和 目标
(12.4) PCA投影 \(\mathbf{z} = \mathbf{V}^T \mathbf{x}\) 线性降维 变换
(12.5) LLE局部重构 \(\min \sum_i \|\mathbf{x}_i - \sum_j w_{ij} \mathbf{x}_j\|^2\) 局部线性嵌入 目标