第十四章：人工智能与机器学习在多组学中的应用

书名：Transcriptomics in Atherosclerosis（动脉粥样硬化的转录组学）章节：第十四章标题：Use of Artificial Intelligence and Machine Learning for Multiomics（人工智能与机器学习在多组学中的应用）作者：Kanita Karaduzovic-Hadziabdic¹, Aleksandra Gruca² 单位：¹波斯尼亚和黑塞哥维那萨拉热窝国际大学工程与自然科学学院；²波兰希隆斯克工业大学计算机网络与系统系 出版年份：2026年 出版社：Elsevier Inc.

第一节：章节概述

本章系统性地介绍了人工智能（AI）与机器学习（ML）在多组学（Multiomics）数据整合与分析中的应用。多组学是指将多种组学数据类型（如基因组学、转录组学、表观基因组学、蛋白质组学和代谢组学）进行整合分析的学科领域。本章指出，多组学数据集具有复杂性和高维性的特点，AI与ML方法在其中发挥着关键作用，为整合、处理和分析这些大规模数据集提供了必要的工具。

每种组学数据层都从不同角度为疾病状态提供互补的视图，将它们结合起来有潜力通过识别新的生物标志物、发现新的治疗靶点和开发更有效的药物来提高疾病诊断和预后的准确性。然而，从大型数据集中提取重要的生物学信息是一项具有挑战性的任务，需要精心设计和执行的ML/AI流程。

过去十年间，ML在生物医学领域的兴起主要归因于以下几个因素：高通量组学技术、电子健康记录和可穿戴设备产生的大数据可用性；计算能力的提升；ML算法的发展；以及大规模数据存储的 affordable 成本。此外，随着个性化医疗需求的不断增长，ML支持精准医学，实现更个性化的治疗和改善患者预后。

动脉粥样硬化性心血管疾病（ASCVD）是一种复杂的疾病，通常没有单一的遗传原因，疾病的进展是众多分子变化、生活方式以及环境因素共同作用的结果。此外，心血管疾病经常与其他疾病（如糖尿病、肾脏、呼吸和认知功能障碍）共同发生，这加重了症状并降低了患者对标准治疗方案的反应能力。ASCVD的这种多面性使得理解疾病发病机制中复杂的信号传导和转录网络变得困难。ML算法在多组学数据上的应用为理解和治疗这种多因素疾病提供了前所未有的机会。

第二节：关键问题与研究动机

2.1 核心科学问题

本章围绕以下五个核心科学问题展开：

问题一：如何有效整合不同组学层面的数据？ 多组学数据整合面临的主要挑战在于，不同组学数据类型具有不同的特征分布、数据质量和生物学意义。本章详细介绍了三种主要的整合策略：早期整合（Early Integration）、中期整合（Middle Integration）和晚期整合（Late Integration），每种策略都有其优缺点和适用场景。

问题二：如何处理高维小样本数据？ 多组学数据通常具有特征数量远大于样本数量的特点，即所谓的"维度诅咒"问题。本章讨论了特征选择和特征提取两类方法来解决这一问题，包括线性方法（如主成分分析、线性判别分析）和非线性方法（如t-SNE、UMAP、自编码器）。

问题三：如何处理数据缺失问题？ 不同组学技术的敏感性不同，一些仪器可能无法检测到低丰度的生物分子，导致数据缺失。本章系统性地介绍了缺失数据的分类（MCAR、MAR、MNAR）以及各种插补方法，包括基于经典ML和深度学习的方法。

问题四：如何解决类别不平衡问题？ 医学数据集中，患病样本往往远少于健康样本，这种类别不平衡会导致模型偏向多数类，降低对少数类的预测性能。本章介绍了数据层面和算法层面的多种解决策略。

问题五：如何实现模型的可解释性？ 随着深度学习等"黑箱"模型在医学领域的应用，模型的可解释性和可解释AI（Explainable AI）变得越来越重要。本章详细介绍了LIME、SHAP等模型无关的解释方法，以及模型在医学应用中面临的伦理问题。

2.2 研究动机与意义

ASCVD作为全球主要的死亡原因之一，其发病机制涉及基因组、表观基因组、转录组、蛋白质组和代谢组等多个层面的复杂调控网络。传统的单组学分析方法难以捕捉这些层面之间的相互作用，而多组学整合分析为系统性地理解疾病机制提供了可能。ML和AI方法在这一过程中扮演着不可或缺的角色，它们能够从高维、异质的数据中发现隐藏的模式和关联，为精准医学的实现提供技术支撑。

第三节：主要公式与推导

3.1 机器学习基本框架

ML工作流的主要步骤包括：

数据收集
数据预处理：包括数据清洗、转换、格式化和缺失值处理
特征工程：包括特征选择和/或特征提取
模型开发：选择适当的监督或无监督ML方法，使用训练集构建ML模型
在测试集上评估模型性能
知识应用

3.2 监督学习方法核心公式

朴素贝叶斯分类器（Naive Bayes）

基于贝叶斯定理，计算给定先验知识或假设下某事件（如类别或结果）的概率：

\[P(Y|X_1, X_2, ..., X_n) = \frac{P(X_1, X_2, ..., X_n|Y) \cdot P(Y)}{P(X_1, X_2, ..., X_n)}\]

其中，\(Y\)是类别变量，\(X_1, X_2, ..., X_n\)是特征变量。朴素贝叶斯方法假设给定类别变量时，所有特征之间条件独立。

逻辑回归（Logistic Regression）

对于二分类任务，使用sigmoid函数将线性组合映射到概率空间：

\[P(Y=1|X) = \sigma(w^T X + b) = \frac{1}{1 + e^{-(w^T X + b)}}\]

其中，\(w\)是权重向量，\(b\)是偏置项。训练过程通过最小化逻辑损失函数（logistic loss）来进行：

\[\mathcal{L} = -\sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i)]\]

LASSO回归与岭回归

LASSO（Least Absolute Shrinkage and Selection Operator）通过在成本函数中添加L1惩罚项来进行特征选择：

\[\hat{\beta}_{LASSO} = \arg\min_{\beta} \sum_{i=1}^{n}(y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^{p}|\beta_j|\]

岭回归则使用L2惩罚项：

\[\hat{\beta}_{Ridge} = \arg\min_{\beta} \sum_{i=1}^{n}(y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^{p}\beta_j^2\]

LASSO的L1惩罚会使某些系数收缩为零，从而实现特征选择；而岭回归的L2惩罚虽然会收缩系数，但不会将其设为零。

弹性网络回归（Elastic Net）

结合L1和L2两种惩罚项：

\[\hat{\beta}_{ENET} = \arg\min_{\beta} \sum_{i=1}^{n}(y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 + \lambda_1 \sum_{j=1}^{p}|\beta_j| + \lambda_2 \sum_{j=1}^{p}\beta_j^2\]

3.3 无监督学习方法核心公式

独立成分分析（Independent Component Analysis, ICA）

ICA将观测数据分解为最大程度独立的潜在成分：

\[X = AS\]

其中，\(X\)是观测数据矩阵，\(A\)是混合矩阵，\(S\)是独立成分矩阵。ICA的目标是找到一个解混矩阵\(W\)使得：

\[S = WX\]

且\(S\)的各成分相互统计独立。

典型相关分析（Canonical Correlation Analysis, CCA）

CCA寻找两组变量之间的线性组合，使得它们之间的相关性最大化：

\[\max_{\rho} \frac{a^T X_1^T X_2 b}{\sqrt{a^T X_1^T X_1 a \cdot b^T X_2^T X_2 b}}\]

其中，\(a\)和\(b\)是典型权重向量，\(\rho\)是典型相关系数。

非负矩阵分解（Non-negative Matrix Factorization, NMF）

NMF将非负矩阵分解为两个非负矩阵的乘积：

\[V \approx WH\]

其中，\(V \in \mathbb{R}^{n \times m}\)是原始非负矩阵，\(W \in \mathbb{R}^{n \times k}\)是基矩阵，\(H \in \mathbb{R}^{k \times m}\)是系数矩阵，\(k\)是潜在因子数。

多组学因子分析（Multi-Omics Factor Analysis, MOFA）

MOFA是一种贝叶斯因子分析方法，用于分析不同组学层之间的共享和独特变异模式：

\[Y^{(m)} = U V^{(m)T} + E^{(m)}\]

其中，\(Y^{(m)}\)是第\(m\)个组学层的观测数据，\(U\)是共享因子矩阵，\(V^{(m)}\)是特定于第\(m\)层的因子载荷矩阵，\(E^{(m)}\)是噪声矩阵。

3.4 缺失数据处理公式

缺失数据的类型分为三类：

MCAR（完全随机缺失）：数据缺失的概率与观测和未观测数据均无关
MAR（随机缺失）：数据缺失的概率与观测数据相关，但与未观测数据无关
MNAR（非随机缺失）：数据缺失的概率与未观测因素相关

k近邻插补（kNN-imputation）的基本思想是使用缺失值附近\(k\)个样本的加权均值进行插补：

\[\hat{x}_i = \frac{\sum_{j \in N_k(i)} w_{ij} x_j}{\sum_{j \in N_k(i)} w_{ij}}\]

其中，\(N_k(i)\)是样本\(i\)的\(k\)个最近邻集合，\(w_{ij}\)是权重（通常使用距离的倒数）。

第四节：关键算法与建模方法

4.1 监督学习算法

决策树（Decision Trees）

决策树通过递归分裂数据进行预测，每个节点代表一个特征上的决策，分支代表决策结果，叶节点表示最终预测。分裂准则包括基尼不纯度（Gini impurity）、信息增益（Information Gain）和均方误差（MSE）：

\[Gini(D) = 1 - \sum_{k=1}^{K} p_k^2\]

其中，\(p_k\)是类别\(k\)在数据集\(D\)中的比例。

随机森林（Random Forest）

随机森林是一种集成方法，通过bootstrap重采样和随机特征子集构建多棵决策树，最终通过多数投票（分类）或平均（回归）整合各树的结果：

\[\hat{Y} = \frac{1}{B} \sum_{b=1}^{B} f_b(X)\]

其中，\(f_b\)是第\(b\)棵树，\(B\)是树的总数。随机森林通过减少方差来提高预测准确性，有效防止过拟合。

极端梯度提升（XGBoost）

XGBoost是一种梯度提升算法，通过序列构建决策树，每棵新树试图纠正前序树的错误：

\[\mathcal{L}^{(t)} = \sum_{i=1}^{n} l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t)\]

其中，\(\Omega(f_t) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^{T} w_j^2\)是正则化项，\(T\)是叶节点数，\(w_j\)是叶节点权重。XGBoost通过计算二阶梯度并应用正则化来减少过拟合。

支持向量机（SVMs）

SVM旨在找到最大化类别间边际的最优超平面：

\[\min_{w,b} \frac{1}{2}||w||^2 \quad \text{s.t.} \quad y_i(w^T x_i + b) \geq 1\]

对于非线性可分数据，使用核函数将数据映射到高维空间：

\[K(x_i, x_j) = \phi(x_i)^T \phi(x_j)\]

常用核函数包括线性核、多项式核、径向基函数（RBF）核和sigmoid核。

人工神经网络与深度学习（ANN and DL）

ANN由输入层、一个或多个隐藏层和输出层组成，通过非线性变换和权重调整来最小化预测误差。深度学习包含多个隐藏层，能够学习数据的层次化表示：

\[h^{(l)} = \sigma(W^{(l)} h^{(l-1)} + b^{(l)})\]

其中，\(h^{(l)}\)是第\(l\)层的激活值，\(W^{(l)}\)是权重矩阵，\(b^{(l)}\)是偏置向量，\(\sigma\)是非线性激活函数。

4.2 无监督学习算法

降维方法

PCA（主成分分析）：将高维数据投影到低维空间，保留最大方差方向
t-SNE：保持局部邻域结构的高维可视化方法
UMAP：基于流形学习的高维数据降维方法，比t-SNE保留更多全局结构

聚类方法

iCluster框架：联合潜在变量方法，用于多组学数据的联合聚类
iClusterPlus：扩展框架，支持分类和连续变量
iClusterBayes：完全贝叶斯方法，提高统计推断和计算效率

4.3 多组学整合策略

早期整合

将各组学层样本拼接成单一大型矩阵，创建联合矩阵作为下游分析的输入。这种方法允许ML模型发现不同组学层之间的相互作用，但产生的拼接矩阵高维复杂，需要大量处理，且忽略各组学类型的独特数据分布。

中期整合

基于转换的整合方法，包括： - 混合整合：各组学层独立转换后再整合 - 中间整合：假设不同组学层共享共同潜在空间，联合转换

中期整合使用核方法、图方法或深度学习进行转换。深度学习方法通常优于基于核和图的方法，但计算成本更高。

晚期整合

为每个组学层分别构建独立的ML模型，生成各自的结果，最后将各模型结果整合到联合模型中。这是最古老的方法，但忽略了不同组学层之间的相互作用。

4.4 患者相似性网络

患者相似性网络（PSN）将患者表示为节点，边缘权重表示基于多组学数据的患者相似性。可使用相似性网络融合（SNF）、亲和融合（ANF）和带重启的随机游走（RWRF）等方法整合不同组学层构建的同质网络。整合后的图可用于下游ML分析或图卷积网络（GCN）分析。

第五节：主要结论

本章系统性地总结了AI和ML在多组学数据分析与整合中的应用，主要结论如下：

多组学整合的重要性：多组学数据整合能够从多个层面揭示疾病的分子机制，每种组学数据层提供互补的视角，结合它们有潜力提高疾病诊断和预后的准确性。
监督学习方法的有效性：朴素贝叶斯、逻辑回归、决策树、随机森林、XGBoost、LASSO、岭回归、弹性网络、K-NN、SVM和神经网络等监督学习方法在多组学数据分析中各有优缺点。方法的选择应根据具体任务、数据特征和可解释性要求来决定。
无监督学习方法的价值：ICA、CCA、SMCCA、NMF、JIVE和MOFA等降维方法，以及iCluster系列聚类方法，在发现数据中的隐藏模式、进行疾病亚型划分和患者分层方面具有重要价值。
整合策略的选择：早期、中期和晚期整合策略各有适用场景，应根据研究目标和数据特点选择合适的策略。中期整合，特别是联合转换方法（如基于矩阵分解的方法），在保留组学层之间共享信息方面表现较好。
深度学习的潜力：深度学习方法在处理非线性关系、高维数据和复杂网络结构方面展现出优势，特别是在能够有效捕捉不同组学层之间的复杂相互作用的图神经网络中。
ASCVD研究的应用前景：虽然近年来多组学数据分析的大部分工作集中在癌症领域，但这些方法在ASCVD研究中的应用有望推动对动脉粥样硬化的理解和治疗。

第六节：挑战与开放问题

6.1 数据复杂性与管理质量

多组学数据的体量和复杂性带来重大挑战，需要在数据收集和预处理阶段应用严格的质量控制措施。不同组学平台的数据收集方法存在固有变异性，这种变异性可能引入不一致性和偏差，使数据集的整合复杂化。预处理步骤（如噪声过滤、归一化、缩放和批次效应校正）如果处理不当可能引入额外错误。

6.2 维度诅咒

高维数据面临多重挑战：随着维度增加，数据变得稀疏，训练时间延长，噪声增加，模型性能下降。特征空间呈指数级扩展，数据点分布更稀疏，有效学习需要更多训练样本。高维数据还增加参数模型的计算资源需求，复杂模型更难解释，这在临床应用中尤为重要。引入无关特征会因Hughes效应降低模型性能，距离度量失去意义。

6.3 类别不平衡问题

在医学数据集中，类别不平衡普遍存在，如健康与患病患者的比例差异。这种不平衡使模型偏向多数类，对少数类（通常更令人关注）的预测性能较差。在多组学数据中，由于高维性和固有复杂性，类别不平衡问题可能进一步加剧。

6.4 缺失数据处理

不同组学技术的敏感性差异、测量平台的技术限制、样本准备步骤、测序深度要求以及样本质量和体积问题都可能导致数据缺失。组学研究中数据更频繁地呈MNAR或MAR分布，因为高通量技术具有特定检测阈值（MNAR），且不同生物分子之间存在生化依赖关系（MAR）。

6.5 模型可解释性与伦理问题

深度学习等"黑箱"模型在提供高预测准确性的同时，其决策过程难以解释。模型可解释性对于临床应用至关重要，需要向医疗专业人员和患者解释AI驱动的决策。模型中的偏见可能导致不公平的治疗决策，如曾有医疗算法优先考虑白人居多而非病情更重的黑人患者。

6.6 监管与合规挑战

欧盟《通用数据保护条例》（GDPR）包含自动化决策的解释权定义，《人工智能法案》要求AI系统具有透明度。满足这些监管要求需要开发可解释的模型和解释方法。

6.7 开放问题

如何更好地验证多组学ML模型在ASCVD中的临床应用效果？
如何标准化不同组学平台之间的数据整合流程？
如何在保持模型性能的同时提高可解释性？
如何处理多组学数据中的批次效应和技术噪声？

第七节：个人思考与批判性分析

7.1 对作者建模哲学的思考

本章作者采用了较为全面的综述性方法，系统性地介绍了ML在多组学中的应用。这种方法的优势在于覆盖面广，能够让读者对整个领域有整体认识。然而，这种方法可能缺乏对特定方法深入的技术细节探讨，读者若要实施这些方法，需要参考原始文献。

作者强调ML/AI流程设计的每个环节的重要性，从实验设计、数据收集、数据整合、预处理、特征降维、模型选择到结果解释，这种系统性的观点值得肯定。在处理复杂的多组学问题时，这种端到端的视角有助于避免各环节之间的脱节。

7.2 数学简化与实际应用之间的权衡

本章涉及的ML方法在理论层面有坚实的数学基础，但在实际应用中面临着诸多简化假设与现实复杂性之间的差距。例如：

朴素贝叶斯假设特征条件独立，这在实际生物学数据中往往不成立
逻辑回归假设特征与结果之间呈线性关系，而生物学过程通常是非线性的
LASSO假设稀疏性，而实际生物标志物可能并非完全稀疏

然而，作者也指出了各种方法的适用范围和局限性，这种实事求是的态度有助于读者在实际应用中做出明智选择。

7.3 对跨学科研究的启示

本章体现了生物医学研究日益跨学科化的趋势。要成功应用ML于多组学研究，需要同时具备生物学背景、统计学知识和计算技能。这种跨学科需求对研究人员的培养和教育提出了新的挑战，也提示我们打破学科壁垒的重要性。

7.4 对ASCVD研究的展望

虽然ML在癌症多组学研究中已有大量应用，但在ASCVD领域的研究相对较少。考虑到ASCVD作为全球主要死亡原因的地位，以及其复杂的发病机制，ML在这一领域的应用潜力巨大。动脉粥样硬化涉及脂质代谢、炎症反应、血管重塑等多种生物学过程，这些过程在基因组、表观基因组、转录组、蛋白质组和代谢组层面都有体现，为多组学整合提供了丰富的研究素材。

7.5 值得进一步探索的方向

图神经网络在ASCVD中的应用：基于患者相似性网络的方法，结合图卷积网络，可能有助于整合不同组学层之间的复杂关系。
可解释AI的进一步发展：开发针对多组学数据的特定可解释方法，而非依赖通用的模型无关方法，将有助于提高模型在临床应用中的可信度。
联邦学习在多组学中的应用：考虑到隐私保护的重要性，联邦学习可能使多个机构在保护数据隐私的前提下进行合作研究。
时间多组学数据的分析：动脉粥样硬化的进展是动态过程，时间序列多组学数据可能提供关于疾病演变的重要信息。

公式汇总

#	名称	形式	物理意义	类型
(14.1)	贝叶斯定理	\(P(Y\\|X) = \frac{P(X\\|Y)P(Y)}{P(X)}\)	给定特征下类别的后验概率	(T)
(14.2)	逻辑函数	\(P(Y=1\\|X) = \frac{1}{1+e^{-(w^TX+b)}}\)	将线性组合映射到概率空间	(T)
(14.3)	逻辑损失	\(\mathcal{L} = -\sum[y_i\log(\hat{y}_i)+(1-y_i)\log(1-\hat{y}_i)]\)	衡量分类模型预测与真实标签的差异	(T)
(14.4)	LASSO惩罚	\(\lambda\sum\\|\beta_j\\|\)	L1正则化，产生稀疏解	(T)
(14.5)	岭回归惩罚	\(\lambda\sum\beta_j^2\)	L2正则化，收缩系数但不为零	(T)
(14.6)	ICA分解	\(X = AS\)	将观测数据分解为独立成分	(T)
(14.7)	NMF分解	\(V \approx WH\)	将非负矩阵分解为非负因子	(T)
(14.8)	MOFA模型	\(Y^{(m)} = UV^{(m)T} + E^{(m)}\)	多组学因子分析的共享与特有变异	(T)
(14.9)	基尼不纯度	\(Gini(D) = 1 - \sum p_k^2\)	衡量数据集纯度	(T)
(14.10)	XGBoost目标	\(\mathcal{L}^{(t)} = \sum l(y_i, \hat{y}_i^{(t-1)}+f_t(x_i)) + \Omega(f_t)\)	序列构建树以最小化损失	(T)
(14.11)	SVM优化	\(\min\frac{1}{2}\\|\\|w\\|\\|^2 \quad s.t. \quad y_i(w^Tx_i+b)\geq 1\)	最大化类别间边际	(T)
(14.12)	kNN插补	\(\hat{x}_i = \frac{\sum_{j\in N_k(i)} w_{ij}x_j}{\sum_{j\in N_k(i)} w_{ij}}\)	使用最近邻加权均值填充缺失值	(T)

注：(T)=理论推导，(E)=经验公式

参考文献

本章引用了134篇参考文献，涵盖了多组学数据整合、机器学习在生物医学中的应用、可解释AI等多个领域的最新研究进展。主要参考文献包括：

Altman N, Krzywinski M. The curse(s) of dimensionality. Nat Methods 2018
Lock EF, et al. Joint and Individual Variation Explained (JIVE) for integrated analysis. Ann Appl Stat 2013
Wang B, et al. Similarity network fusion for aggregating data types on a genomic scale. Nat Methods 2014
Wang T, et al. MOGONET integrates multi-omics data using graph convolutional networks. Nat Commun 2021
Chen D, et al. A survey on deep learning for biomedical data integration. J Biomed Inform 2023

本章笔记由AI辅助阅读整理，仅供个人学习参考使用