第 14 章：人工智能与机器学习在多组学中的应用（Use of artificial intelligence and machine learning for multiomics）

引言（Introduction）

多组学涉及基因组学、转录组学、表观基因组学、蛋白质组学与代谢组学等多种组学数据类型的整合。多组学数据集具有复杂性与多维度的特征，机器学习（ML）与人工智能（AI）方法在其分析中扮演关键角色，提供整合、处理与分析大型数据集所需的工具。每个组学层级从不同视角对疾病状态给出互补的观察，将它们结合有可能通过识别新生物标志物、发现新治疗靶点与研发更有效药物来提升疾病诊断与预后的准确性。然而，从大型数据集中抽取重要生物信息是一项具有挑战性的任务，需要经过精心设计与执行的 ML/AI 流水线；这样的分析从恰当的实验设计与数据采集开始，再以不会引入偏倚的方式整合数据（这由数据预处理与特征约简方法的应用所保障），随后选择最佳的数据集分析方法，最后谨慎地解读结果。在过去十年中，ML 在生物医学中的兴起主要由若干因素驱动：高通量组学技术、电子健康记录与可穿戴设备产生的大数据可用性、计算能力的提升、ML 算法开发的进步以及经济的大规模数据存储的日益普及；此外，随着对个体化医疗需求的不断增长，ML 支持精准医学，从而带来更具针对性的治疗与改善的患者结局。动脉粥样硬化性心血管疾病（ASCVD）是一种复杂病症，通常不存在单一的遗传病因；此外，疾病的进展是众多分子变化与生活方式及环境因素共同作用的结果（Reitz 等）。心血管疾病常与其他疾病共存，如糖尿病（其晚期糖基化终产物与血管炎症相关，Basta 等）、肾脏（慢性肾病与动脉粥样硬化之间的复杂关系，Valdivielso 等）、呼吸与认知功能障碍（Scholten 等），这些共病会加重症状并降低患者对标准治疗方案的反应能力。ASCVD 的多面性使其潜在的复杂信号与转录网络难以理解；将 ML 算法应用于 ASCVD 研究中的多组学数据为理解与治疗这一多因素疾病提供了前所未有的机会。本章后续各小节将探讨 AI 与 ML 在多组学中的应用，涵盖用于多组学分析的机器学习模型、多组学数据整合的关键策略、AI 在多组学中的挑战与解决方案以及 AI 中的伦理问题。ML 在生物医学中的兴起与可穿戴设备、电子健康记录、海量高通量组学数据三者密切相关——这意味着 ML 模型可以在从分子到表型的多个尺度上整合患者信息，而不仅仅是某一组学层级的数据；这正是多组学方法论的核心动机。尽管多组学整合在 ASCVD 中具有巨大潜力，但 Bezzina-Wettinger 等近期综述指出，瓶颈在于通用数据资源的匮乏——这意味着即便算法已经成熟，缺乏统一可用的 ASCVD 多组学数据集会限制其在实际研究中的部署与验证。换言之，AI/ML 方法本身的进步并不能单独驱动 ASCVD 多组学研究；数据生态系统的建设（标准化、共享、跨平台）至少同等重要。作者进一步强调，理解疾病发病机制所需的复杂信号与转录网络正是 ML 算法可以发挥优势的目标——多组学数据的高维与多模态特征天然适合非线性 ML 模型的处理能力，这是本章方法论讨论的根本立足点。这正是多组学整合在 ASCVD 场景下的核心应用前景，也是作者在结论部分提到的"这些方法在 ASCVD 中能否成功有待观察"这一开放问题的具体语境——换言之，方法学已经准备就绪，ASCVD 特定场景下的实证验证是当下最迫切的研究空白。

多组学分析的机器学习模型与监督学习方法（ML models for multiomics analysis and supervised learning methods）

多组学分析中常用的两种 ML 学习方法是监督学习与无监督学习。监督学习方法用于数据集包含带标签训练数据的场景，典型任务为分类（即结局/目标变量为分类型）与回归（即结局/目标变量为数值型）。无监督学习方法用于数据无标签的场景，主要用于聚类、异常检测与降维。ML 工作流涉及的主要步骤包括：1) 数据采集；2) 数据预处理，包括数据清洗、转换、格式化与缺失值处理等任务（Wang 等）；3) 特征工程，包括特征选择与/或特征提取——特征选择识别最相关的特征，去除冗余特征（Peng 等、Remeseiro 与 Bolon-Canedo），特征提取则将数据变换到低维空间，使新特征成为原始特征的线性或非线性组合（Hira 与 Gillies、Zebari 等）；4) 模型开发，包括选择恰当的监督或无监督 ML 方法，然后使用训练集构建 ML 模型，此步骤常涉及超参数调优以实现最佳性能；5) 在测试集上评估模型性能；6) 知识应用（Karađuzović-Hadžiabdić 与 Peters）。监督 ML 方法用于建模输入特征与已知带标签输出之间的关系；在训练阶段，模型学习这些关系，从而能够对未见过的数据进行预测。表 14.1 总结了多组学分析与/或整合中最常用的监督 ML 模型，列出每种方法的优点、缺点、可解释性表现与计算效率等维度。朴素贝叶斯（NB）是一种基于概率的方法，使用贝叶斯定理计算给定关于另一事件的先验知识或假设下某事件（如类别或结局）的概率；在条件独立性朴素假设成立的前提下，该方法执行速度快且对小数据集表现良好，并能给出每个类别结局的概率，可解释性高；但该方法对预测变量间的条件独立性有朴素假设（这一假设可能不总是成立），且对预测变量高度相关的数据表现较差，也不善于处理缺失值。逻辑回归用于二分类任务，将逻辑（sigmoid）函数应用于预测变量的线性组合以预测结局概率；它能良好处理噪声数据且计算高效，对线性可分数据性能高，特征系数具有高可解释性；但其对离群值敏感、不善于处理缺失值，且假设预测变量与结局之间为线性关系。决策树由逻辑决策构成，每个节点代表关于某特征的决策，分支对应决策的输出，叶节点表示决策路径的终端结果；该类模型能捕捉特征间的非线性关系、对离群值稳健、可解释性高；但易于过拟合（当树变得过深与复杂时训练表现好但测试表现差），且随着数据集规模与复杂度增加，决策树性能趋于下降；总体而言随机森林比单一决策树表现更佳。随机森林是一种执行预测的集成方法，通过创建决策树实现；它能有效处理数据的非线性与含有噪声特征的大型高维数据集，与单一决策树相比能减少过拟合；但训练计算密集（尤其对大型高维数据），不易于解释（不像单独的决策树），且通常需要超参数调优。极端梯度提升（XGBoost）以顺序方式组合多个模型（通常是决策树），每棵后续树尝试修正前序树的错误，并以二阶梯度计算损失函数与正则化（有助于减少过拟合）；该方法预测准确度高、快速且高效，能减少过拟合；但难以解释，调参耗时，尤其在处理复杂模型与大型数据集时。基于正则化的方法包括 LASSO（对成本函数施加 L1 惩罚，系数绝对值之和，使部分系数收缩至零，从而实现自动特征选择）与岭回归（对成本函数施加 L2 惩罚，系数平方和，从不将系数设为零但能有效处理多重共线性）；两者在高维数据上表现良好，但 LASSO 在特征相关时会任意移除某些特征，可能移除比所选特征更重要的特征；岭回归则保留全部特征，仅收缩其系数。弹性网络回归（ENET）结合 L1 与 L2 惩罚到标准最小二乘目标函数，自动执行特征选择并有效处理多重共线性，但倾向于在非常高维数据上过拟合，尤其在特征数远大于样本数时，需要对 L1 与 L2 惩罚进行超参数调优以获得最佳结果。K-近邻（K-NN）方法基于新数据样本与所有训练样本之间的距离进行分类——新样本的类标签被分配给其最近（即最邻近）的 k 个训练样本的类别（分类任务用多数投票，回归任务用 k 个近邻的均值）；该方法对 k 值选择敏感，对噪声数据敏感，全局可解释性低。基于核的支持向量机（SVM）旨在寻找最优超平面以最大化类别间隔并最小化分类错误，通过使用核（数学函数）将数据输入转换到多维空间；它预测准确度高，能有效处理数据非线性与复杂决策边界，且通常对过拟合具有抵抗力；但训练计算密集，对核选择敏感，调参必要，对非线性核可解释性低。基于神经网络的人工神经网络（ANN）与深度学习（DL）由互连的神经元层构成：输入层（独立变量）、一个或多个隐藏层与输出层（因变量）；该方法以非线性变换处理加权输入并迭代调整权重以最小化预测误差，能捕捉数据中复杂的非线性关系并处理大型数据集；但训练计算密集且缓慢，对过拟合与欠拟合敏感，调参必要，可解释性低。

无监督学习方法与聚类方法（Unsupervised learning methods and clustering methods）

近年来已发展出多种用于多组学数据分析与整合的无监督学习方法，用于揭示多组学数据中的隐藏模式。一种应用是降维，在保留最重要特征的同时简化复杂数据集。常用的降维方法包括：独立成分分析（ICA）、典型相关分析（CCA）、稀疏多重典型相关分析（SMCCA）、非负矩阵分解（NMF）、联合 NMF、整合 NMF、联合与个体变异解释（JIVE）以及多组学因子分析（MOFA）。ICA 识别统计独立的多组学特征，将观测数据分解为最大程度相互独立的潜在成分，使提取的特征互不相关（Meng 等、Sompairac 等）。CCA 与其稀疏变体 SMCCA 采用基于相关性的整合，识别各多组学层中线性组合的最大相关维度；在高维数据中，SMCCA 可能面临典型变量（CV）高度相关带来的多重共线性挑战；Jiang 等提出的 SMCCA-GS 方法使用 Gram-Schmidt（GS）算法增强 CV 之间的统计独立性，减少多重共线性，从而改善特征提取；该方法被应用于 Multi-Ethnic Study of Atherosclerosis 与 Jackson Heart Study 队列的蛋白质组学与甲基化数据，揭示了血细胞计数与蛋白质丰度之间的显著关联；Revilla 等也将正则化典型相关分析应用于炎症性肠病的多组学建模。NMF 是一种用于分析非负数据的降维技术（Lee 与 Seung 1999），将一个矩阵分解为两个低维矩阵并保持所有值为非负；NMF 可应用于单一数据集以提取反映潜在生物过程的可解释非负成分，但它不能同时整合多个多组学；为解决此限制，扩展方法如联合 NMF（Zhang 等）与整合 NMF（Yang 与 Michailidis）已被开发并应用于多组学整合；这些矩阵分解方法可有效推断一个捕捉不同数据集之间关系的共享潜在矩阵；联合 NMF 识别多组学相关性，整合 NMF 执行样本聚类与亚型发现。JIVE 是由 Lock 等提出的多组学整合框架，是主成分分析（PCA，Wold 等）的扩展；该方法量化数据类型之间的联合变异、降低数据维度，并为联合与个体结构的可视化探索提供新方向；作者将 JIVE 应用于多形性胶质母细胞瘤肿瘤样本的基因表达与 miRNA 数据，发现了基因-miRNA 关联，从而改善肿瘤亚型分类。MOFA 由 Argelaguet 等提出，是一种贝叶斯因子分析方法，分析不同组学层之间的共享与不同变异性模式；作者将该方法应用于慢性淋巴细胞白血病的体细胞突变、RNA 表达、DNA 甲基化与体外药物反应数据，MOFA 识别出免疫球蛋白重链可变区状态、12 号染色体三体以及氧化应激反应等新型驱动因素等跨组学层的疾病异质性关键因子；将 MOFA 应用于单细胞多组学数据分析，MOFA 识别出转录组与表观基因组之间的协调变异。

聚类方法用于发现跨组学层相似样本的聚类，常用于疾病亚型与生物标志物发现。iCluster 框架由 Shen 等提出，是一种用于多组学数据整合聚类的联合潜变量方法，主要目的是揭示潜在疾病亚型与生物标志物发现；该方法对不同组学层的联合分布建模，并基于层间相关性执行聚类；作者应用该方法对异质性基因组数据（DNA 拷贝数数据、DNA 甲基化数据与 mRNA 表达数据）进行整合聚类，以识别乳腺与肺癌的分子亚型。iClusterPlus 由 Mo 等提出，是 iCluster 框架的改进，能够整合组学数据以包含更广泛的数据类型，包括分类型与连续型变量；Zhao 等将 iClusterPlus 应用于基因组学、表观基因组学与转录组学的多组学分析，以识别肺腺癌的分子亚型与核心基因。iClusterBayes 由 Mo 等提出，是 iCluster 框架的另一扩展；该方法采用完全贝叶斯潜变量方法来联合建模组学数据，使用连续与离散类型以识别癌症亚型与相关组学特征；相较于 iCluster 框架，iClusterBayes 显著增强了统计推断与计算效率。

多组学数据整合的关键策略与早期整合（Key strategies for multiomic data integration using ML and early integration）

过去十年间，已引入若干多组学数据整合策略（Hernández-Lemus 与 Ochoa、Picard 等）。这些通常应用于基于 ML 方法的策略可归为三大类：早期、中期与后期整合。无论采用何种策略，所有方法都需要针对其组学类型的初始数据预处理。此外，流程中的一个重要步骤是通过特征选择或特征提取方法进行的降维——降维在早期、中期与后期整合中均可应用，其作用是减少数据维度以便 ML 模型处理高维多组学数据。所有整合策略的共同目标是从多组学数据中提取生物意义，同时最小化偏倚、保留各组学层特异的信号并捕捉跨层相互作用。早期整合强调跨层的联合分析，中期整合通过转换桥接各组学层之间的分布差异，后期整合则保留各组学层的独立性。这三种策略之间的选择取决于研究问题、组学层之间的相互作用假设以及数据可获得性。值得一提的是，作者用图 14.1 直观地呈现了这三种策略的对比——该图取自 Bezzina-Wettinger 等关于"推进与应用多组学数据整合的瓶颈——通用数据资源作为速率限制驱动因素——以动脉粥样硬化性心血管疾病为高影响使用案例"的近期综述（Bref Bioinform 2025，in press），作者明确指出图示意在强调各策略在 ASCVD 场景下的相对优势，并指明这是后续多组学应用研究中应被反复参考的概念框架。

早期整合涉及将每个组学层的样本串联成一个大型矩阵，创建联合矩阵以供后续作为各种监督（如表 14.1）或无监督 ML 方法的输入。已成功应用于多组学早期整合分析的方法示例包括 Arjmand 等、Prélot 等、Stetson 等与 Wu 等的研究。近年来，深度学习（DL）已成为分析多组学数据的有效方法（Chaudhary 等、Tang 等、Wekesa 与 Kimwele），主要因其能够有效捕捉高维数据集中的非线性关系；凭借多层架构，DL 方法能成功整合多种类型的组学数据。此外，某些网络方法如混合图模型（Altenbuchinger 等）可通过图形表示整合来自不同组学层的变量，无监督模型如 iCluster 方法也可应用于联合矩阵进行早期整合。早期整合虽使 ML 模型能发现不同组学层之间的相互作用，但所得串联矩阵高维、复杂且需大量处理；此外，该方法忽略各组学类型的数据分布差异，并优先考虑特征数较多的组学层——这是一个重要限制，因为它可能使来自高维组学层（如基因组学）的信号主导来自低维组学层（如代谢组学）的信号。早期整合的另一个权衡是：由于所有组学层被合并为单一矩阵，特征数可能远超样本数，使模型易于过拟合。这一过拟合风险在 ASCVD 多组学研究中尤为突出，因为 ASCVD 的样本量通常受限于临床招募，而每个样本的特征数（特别是基因组学与表观遗传学）可能达到数十万甚至百万级；这意味着早期整合在 ASCVD 场景下的"维度灾难"问题比在癌症场景下更为严峻。Bezzina-Wettinger 等的图 14.1 正是为了直观呈现这一权衡：早期整合是三种策略中最直接但也最易受维度问题困扰的一类，图中通过"拼接矩阵"的方式说明早期整合的串联结构，这是该图最核心的可视化表达，也是读者理解早期整合概念的最直观的入口。

中期整合与后期整合（Middle and late integration）

中期整合是基于转换的整合方法，转换可对每个组学层独立进行（混合整合）或联合进行（中间整合）。在独立方法中，每个组学数据集先分别转换，再将转换后的层整合为单一的联合转换。转换可基于核、基于图或使用深度学习；其中 DL 方法总体上优于基于核与基于图的方法，但计算强度更高。基于核的转换涉及应用数学函数（如线性、高斯、多项式与 sigmoid 核）将数据输入映射到更高维空间，使数据点之间在原始特征空间中可能不明显的线性关系得以发现；基于核的方法能够建模不同组学层之间的复杂关系，过去已开发各种基于核的方法，包括融合偏最小二乘（Yang 等，结合不同核为单一核并使用遗传算法优化参数）、多核学习（MKL，Briscik 等、Tao 等等，对每个组学层应用不同的核并将它们合并为包含基于原始多组学数据集变量样本间相似性的全局相似性矩阵）；多种核的加权组合可使用 Simple and Efficient MKL、SpicyMKL、基于线性 MKL 的改进监督方法等方法实现。近年来基于图或网络的多组学数据整合方法越来越受欢迎；基于图的方法在分析前将每个多组学层建模为图；使用基于图的方法包括相似性网络融合（SNF，Wang 等）、亲和融合（ANF，Ma 与 Zhang）、多维融合随机游走重启（RWRF，Wen 等）等；这些方法使用患者相似性网络（PSN，Gliozzo 等），其中患者为节点，加权边表示基于其多组学数据的样本间相似性；为每个组学层构建 PSN 形成同质网络，然后使用 SNF、ANF 与 RWRF 等融合方法进行整合；整合后的图即可用于下游分析的 ML 模型或图卷积网络（GCN，Zhang 等）等深度学习模型，这些模型以图作为输入，并已被用于多种研究，包括 MOGONET（Wang 等）、MoGCN（Li 等）、MultiOmics gRaph cOnvolutional NETworks 与 Multiomic Graph Diagnosis（Ryan 等）。DL 整合方法包括将 DL 应用于心肌重塑期间多组学数据的无监督分类（Chung 等）以及 CustOmics 框架（Benkirane 等）；作者将 CustOmics 框架应用于乳腺癌亚型与生存结局预测，证明其在分类与生存任务中优于现有 DL 多组学整合方法。详细方法列表、图与网络方法综述可参见 Kang 等、Nicora 等、Picard 等等多组学整合方法的综述文献，以及 Ch13 系统生物学与网络分析。

在中间转换中，数据整合由执行不同组学层联合整合的模型完成；所得整合模型同时包含不同组学层之间的共享信息与组学特异信息。整合模型进一步用于 ML 分析。联合整合方法假设不同组学层共享一个可揭示潜在生物洞察的共同潜空间。最广泛使用的联合转换方法包括矩阵分解方法如 SLIDE（Gaynanova 与 Li）、NMF（Lee 与 Seung）、联合 NMF、整合 NMF、CCA 与 SMCCA；Picard 等与 Cantini 等综述了更全面的联合转换方法列表。

后期整合涉及为每个组学层构建单独的 ML 模型，每个模型生成各自的结果；最终模型通过将各单独模型整合为联合模型（结合所构建模型的结果）而建立。该方法是研究者应用于多组学整合的最古老方法，因为它使用既定方法分别分析每个组学层，再组合各模型结果。例如，Ma 等使用 XGBoost 的集成学习利用 mRNA 表达、miRNA 测序数据、DNA 甲基化与临床信息对癌症的早期与晚期阶段进行分类；另一例子涉及 Sun 等使用神经网络在基因表达、拷贝数数据与临床信息上的结果进行线性聚合。DL 方法也已用于后期整合：Multiomics late integration（MOLI，Sharifi-Noghabi 等）是一种基于深度神经网络（DNN）的后期整合方法，专为药物反应预测而开发；该模型先应用类型特异的编码子网络从体细胞突变、拷贝数变异与基因表达数据中学习特征，然后串联所学特征以预测对给定药物的反应作为输出。后期整合方法的主要缺点是忽略不同组学层之间的相互作用，因此一般采用早期与中期整合方法的替代策略（即早期与中期整合方法）。

AI 在多组学中的挑战概述与管理数据复杂性（Challenges in AI for multiomics — overview and managing data complexity and quality）

尽管 AI 在推动多组学发展方面具有巨大潜力，但同时也带来若干挑战——管理数据复杂性与质量、类别不平衡、缺失数据、模型可解释性与可解释性问题、AI 伦理问题等——从而推动了各种解决方案的发展。本节概述主要挑战及其潜在解决方案。

关键挑战之一是管理多组学数据的庞大体量与复杂性，这要求在数据采集与预处理阶段采用稳健的质量控制措施（Cominetti 等），以确保数据以有意义的方式组合，且仅有高质量数据用于下游分析。确保多组学实验期间的协议恰当至关重要——需考虑的核心问题是不同组学平台间数据采集方法的固有变异性（Krassowski 等）；这种变异性会引入不一致与偏倚，使数据集整合复杂化。此外，每种组学数据所需的预处理步骤（噪声过滤、归一化、缩放与批次效应校正，Mohr 等）若处理不当会进一步引入误差。另一个重大挑战是数据的高维度，这需在任何 ML/AI 分析方法应用前加以考虑。维度灾难（Altman 与 Krzywinski 2018）指的是分析高维数据时产生的挑战——维度数量增加会导致数据稀疏性、训练时间延长、噪声增加与模型性能下降；具体而言，随着维度增加，特征空间体积呈指数级增长，导致数据点分布更分散，需要更多训练样本才能有效学习。更高维度也会增加训练模型所需的计算资源（特别是参数化模型，Verleysen 与 François），模型越复杂越难以解释（Barceló 等），这在临床应用中尤为关键。引入不相关特征会因 Hughes 效应降低模型性能——即预测能力起初随特征数量增加而上升，但超过某点后添加更多特征会降低模型性能。最后，距离度量在数据点之间平均距离增加时会失去意义（Aggarwal 等），使高维数据解读复杂化。处理高维度问题通常采用两种方法：特征提取或特征选择。特征提取旨在基于现有特征构建新特征集（通常具有更低维度）；特征选择方法则选择相关特征子集用于模型构建，不改变原始特征而是选择最重要的特征。特征提取方法可进一步分为线性方法（如主成分分析与线性判别分析）与非线性方法（如 t 分布随机邻域嵌入（t-SNE）、均匀流形逼近与投影（UMAP）或自编码器应用）。尽管 t-SNE 与 UMAP 等方法流行且广泛使用，并可揭示高维数据内某些相关性，但极端降维实践缺乏理论支持；这些方法不保证保留局部或全局邻域结构（Chari 与 Pachter），可能导致关于数据结构与关系的误导性结论。处理高维数据的第二类方法是特征选择，其目的是在不变换的情况下选择原始特征的子集；这些方法可分为三类：i) 过滤方法独立于模型评估每个特征的重要性；ii) 包装方法基于特定模型性能评估特征重要性；iii) 嵌入方法在模型训练过程中执行特征选择。Theng 与 Bhoyar 综述了广泛的特征选择算法，按其属性与性能分类，并讨论其在各领域的演进与应用。由于多组学数据集因高相关变量在复杂高维结构中分组而具有结构化特性所带来的重大分析挑战，Li 等比较了所选过滤方法在 15 个癌症多组学数据集上的性能，结论是最小冗余最大相关方法、随机森林的置换重要性与 Lasso 倾向于优于其他考虑的方法。有趣的是，作者未观察到添加临床特征可改善结果，尽管这些特征在分析中未被优先化；由于临床特征数量通常远少于组学变量，Hornung 与 Wright 建议在分析多组学数据时强制纳入临床协变量。然而，该策略并不总能带来更好结果，因为临床协变量中包含的预测信息量取决于具体应用。

类别不平衡（Class imbalance）

另一个重大挑战是 ML 分析中的类别不平衡问题，发生于数据集中类别分布高度倾斜、某一类别数量远多于其他类别时；这种不平衡会使结果产生偏倚，导致模型偏向多数类并对通常更受关注的少数类表现不佳。在医疗数据（如心血管疾病）中，这种情况通常与不同比例的健康与患病个体或不同疾病亚型患者有关；在多组学数据中，由于其高维度与固有复杂性，类别不平衡挑战可能进一步加剧（Japkowicz 与 Stephen）。缓解类别不平衡问题的方法可分为数据级与算法级。数据级方法包括过采样、欠采样或合成少数类过采样技术（SMOTE，Chawla 等）等数据增强方法及其众多扩展（Fernández 等）；SMOTE 通过在少数类样本与其最近邻之间插值生成合成样本，从而增加少数类的有效样本量；然而这些经典数据增强方法只能学习局部与全局分布之间的非确定性关系，即它们仅在特征空间的局部区域合成样本，不能保证生成样本的多样性与真实性。近年来，基于生成对抗网络（GAN）架构的数据增强方法日益流行，因其能通过学习少数类的未知潜在分布来生成高度逼真的合成数据（Pan 等、Anaissi 等、Sauber-Cole 与 Khoshgoftaar）；GAN 由生成器与判别器组成，生成器试图生成与真实样本难以区分的合成样本，判别器试图区分真假样本，二者通过对抗训练共同提升；这种方法在医学影像组学中已显示出优于 SMOTE 的潜力，但在多组学表格数据上的应用仍处于早期。算法级类别平衡缓解方法包括代价敏感学习——为少数类样本分配更高的误分类代价，使得模型在训练时更"关注"少数类错误；集成方法如 boosting 或 bagging 可产生更通用的模型；特别是 boosting 方法如 AdaBoost（Freund 与 Schapire）与 XGBoost 顺序训练模型并具有内置机制为被错误分类的样本分配更高权重；另一方法是类加权学习，在训练期间为少数类样本分配更高权重；最后，DL 模型可使用适当损失函数进行训练以减少被良好分类的多数类样本的影响，如 focal loss（通过降低易分类样本的损失权重使模型专注于难分类样本）或 class-balanced loss（基于有效样本数重新加权各类别损失）（Büttner 等、Du Nguyen 与 Thai）。在类别不平衡设置中，使用对类别不平衡具有稳健性的评估指标至关重要：这些指标（如 F1 分数、曲线下面积或精确率-召回率曲线）关注模型在少数类上的性能而非整体准确率；由于准确率在不平衡数据集中可能产生误导（如模型可能仅通过预测多数类就获得高准确率），这些指标提供了对模型识别与分类少数类实例能力的更可靠评估。一个具体的例子：在心血管疾病多组学预测模型中，患病个体（少数类）的错误分类代价通常远高于健康个体（多数类），因为漏诊可能导致严重后果；因此，算法级方法（特别是代价敏感学习与 focal loss）在此场景下比单纯提高准确率更为合适。这也是为什么在心血管医学领域，研究者通常报告精确率-召回率曲线下面积（AUPRC）而非简单准确率，以避免被高准确率假象误导；这一指标选择在多组学预测心血管事件的研究中已成为标准做法，且通常与 F1 分数联合报告以提供更全面的模型性能视图。

多组学中的缺失数据处理（Handling missing data in multiomics）

缺失数据是多组学分析中的常见问题。不同组学技术具有不同灵敏度水平，部分仪器可能无法检测低丰度生物分子，导致缺失数据；测量平台因样品制备步骤、测序所需材料量与测序深度要求而存在技术限制（Graw 等）；组织质量不足或样本量过小可能导致数据采集不完整；最终，部分测量可能因质量问题而被丢弃。另一方面，许多 AI 与 ML 方法只能在无缺失观测的完整数据上工作，需要用户采用恰当的缺失数据处理方法。理解缺失数据背后的机制对选择恰当的处理方法至关重要。缺失数据可分为三类：完全随机缺失（MCAR）、随机缺失（MAR）与非随机缺失（MNAR，Rubin 1976）。MCAR 数据是指缺失概率独立于观测与未观测数据，即缺失数据点随机分布于所有观测中，总体中每个个体具有相等的缺失概率。MAR 数据是指数据点缺失的可能性与缺失数据无关，但可能与其他观测数据相关；例如，若年长参与者不太可能回答某调查问题，缺失性与年龄相关（年龄是观测变量）。MNAR 数据则是缺失概率依赖于未观测因素。在组学研究中，数据更常为 MNAR 或 MAR，因为高通量技术已知存在一定检测阈值（MNAR），且不同生物分子之间存在生化依赖（MAR，Flores 等）。处理缺失数据的两种主要方法是：i) 丢弃任何具有缺失值的生物分子的数据/从数据集中丢弃任何具有缺失值的样本（称为列表删除或完整案例分析（CCA）），或 ii) 通过某些替代值替换缺失值，这一过程称为插补（van Loon 等）。数据删除通常不是首选方法，因为在多组学实验中该问题可能影响不同患者的不同高通量技术，单一缺失值可能导致从数据集中删除整个案例；因此，CCA 可能删除的观测值远超最初缺失的数量，显著减少样本量，从而增加方差并导致不太准确的预测。科学界普遍认为，当数据为 MAR 或 MCAR 时，CCA 不会因缺失数据而产生偏倚，因为完整案例对具有缺失数据的案例具有代表性；然而部分其他研究（Hughes 等）讨论了 CCA 在 MNAR 数据下给出无偏结果的可能性。由于 CCA 方法在许多情况下可能导致从数据集中实质性移除信息，因此替代方法是替换缺失值。在多组学数据集中，插补方法可只考虑单一模态类型（如仅使用基因组学数据或仅使用蛋白质组学数据），或可利用多组学数据集之间的相关性与共享信息；数据插补方法可特别分为以下几组（Huang 等）：i) 基础方法（用观测值均值、零值、LOD（检测限）插补或随机值替换缺失值）；ii) 热卡方法（使用聚类寻找相似对象，然后通过复制其值来插补缺失值）；iii) 多重插补（通过对数据中分布与关系生成合理数字来插补缺失值，通过迭代轮次生成多个插补数据集，再合并结果）；iv) 经典 ML 方法；v) 基于 DL 的方法。虽然由于简单性人们可能倾向于使用基础方法，但并不推荐这些方法，因为它们可能降低数据变异性并引入偏倚，导致原始特征分布改变；因此需要更复杂技术以减少简单方法的缺点。基于 ML 的数据插补方法包括 k-近邻（kNN）插补（Dong 等）、贝叶斯主成分分析（Oba 等）、随机森林、奇异值分解插补（Troyanskaya 等）、局部最小二乘插补（Kim 等）及其扩展（Yoon 等、Zhang 等、Ching 等）、模型平均的高斯混合聚类（Ouyang 等）、支持向量回归（Wang 等）与 NMF（Xu 等）。基于 DL 的数据插补方法可分为基于自编码器、基于变分自编码器与生成对抗插补网络。Huang 等与 Sun 等综述并比较了基于 DL 的插补方法；有趣的是，Sun 等得出的结论是：在数据样本量小或适中（n < 30,000）的情况下，常规方法优于 DL 方法。Song 等在其综述中提供了按基因型数据、基因表达、表观基因组学与蛋白质组学数据插补方法分类的不同多重数据插补方法列表；这些方法常专为特定多组学数据类型设计——例如 Melissa 方法（Kapourani 与 Sanguinetti）利用相邻 CpG 间的局部相关性信息。大多数此类插补方法的主要限制是仅专注于处理来自单一组学数据类型的信息。多组学数据插补方法则可利用其他模态通过利用同一受试者/生物材料测量的不同组学类型之间相互关联的特性来预测缺失值；与单模态数据插补方法类似，多组学方法可分为基于经典 ML 与基于 DL 的方法。TOBMIkNN（Dong 等）是一种基于 kNN 算法的跨组学块缺失数据加权插补方法。也有方法利用绝对收缩与选择算子（Lasso）惩罚回归，通过遗传变异（Hu 等）或 DNA 甲基化（Zhong 等）预测基因表达。TDimpute（Zhou 等）基于 DL 方法，通过基于迁移学习的神经网络从 DNA 甲基化数据中插补缺失的基因表达数据。OmicsNMF（Ansari 等）整合 GAN 与 NMF。另一方法 OmiTrans（Zhang 与 Guo）基于 GAN 方法结合生成器训练步骤中的 MSE 损失，便于任意两个组学类型之间的数据转换。也存在专门为单细胞分析开发的数据插补方法组，如自编码器架构 scMM（Minoura 等）、能翻译单细胞转录组与染色质谱的基于编码器-解码器的 BABEL（Wu 等）、使用深度生成模型处理缺失蛋白质数据的 totalIV（Gayoso 等）等。

模型的可解释性、可说明性与 AI 伦理（Explainability, interpretability, and ethics in AI）

毫无疑问，ML 与 AI 模型在临床实践中的应用要求在真实临床环境中对其进行验证以确认其性能与可靠性。然而，减缓这些模型整合进临床工作流的另一重要挑战是模型的可解释性与可说明性问题（Markus 等、Lipton）。可解释性与可说明性是两个不同的术语，常被互换使用。可解释性指我们对模型所做事情的理解——即模型基于哪些属性值做出预测；根据 Glipn 等，可解释性是模型可被说明所必需的步骤之一，因为可说明性是更广义的术语，指对模型决策的人类理解。换言之，可说明性关乎为特定受众（如领域专家与终端用户，例如医疗人员与患者）提供量身定制的洞察，并不要求理解模型内部参数。可解释人工智能是专注于开发可在某种细节程度上提供算法决策洞察方法的研究领域；此类解释对于确保算法公平性、识别训练数据中的潜在偏倚/问题以及确保算法按预期执行至关重要。特别是深度网络技术的最新进展——使这些系统能分析大量数据并识别人眼或经典 ML 方法不明显的模式——导致了所谓"黑箱"或"不透明系统"的产生；当用户难以理解其工作原理及在多个层面（包括依据科学与伦理规范评估其行为）解读其决策时，AI 系统即被认为是不透明的（Facchini 与 Termine）。因此，近年来已发展出各种解决此问题的方法，可分为模型无关方法、模型特定方法与可视化（Bodria 等）。属于第一组的方法示例是 LIME（Local Interpretable Model-agnostic Explanations，Ribeiro 等）与 SHAP（SHapley Additive exPlanations，Scott 与 Su-In）。LIME 方法可应用于任何 ML/AI 模型，通过在局部用更简单且可解释的模型近似原始模型；LIME 通过扰动单个数据样本的特征值并观察模型输出变化来理解每个特征对该特定样本预测的贡献；在这些扰动样本上训练更简单的模型（如线性回归或决策树）以提供复杂模型行为的良好局部近似。另一类模型无关方法 SHAP 使用博弈论概念解释 ML 模型输出；SHAP 值赋予模型特征以重要性值，表示该特征在所有可能特征组合中对预测的平均贡献；具有正值的特征对预测产生正向影响，具有负值的特征产生负向影响；大小是效应强度的度量。模型特定方法示例包括从 DNN 中提取决策树/规则的方法；DeepRED（Zilke 等）扩展了为浅层网络设计的 CRED（Sato 与 Tsukimoto）方法至更多隐藏层；其工作原理是使用分治法将网络分解为各个层，为每层提取中间规则；这些中间规则然后被合并为基于输入描述网络整体行为的最终规则集。生成 DNN 行为解释的基于规则的其他方法包括 LORE（Local Rule-Based Explanations，Guidotti 等）、Anchors（Ribeiro 等）、MUSE（Lakkaraju 等）等。Antamis 等、Saleem 等、He 等、Zhang 等的综述对可用于解释 DNN 结果的方法进行了全面回顾，包括基于规则的方法。大量研究指出模型可解释性在医学研究中至关重要——理解模型如何以及为何做出特定预测有助于将 ML 模型整合进临床场景。有趣的是，Chen 等对医师与医学生 AI 接受度的系统综述显示，可解释性是临床使用 AI 意愿相关的七个重要因素之一；模型准确度在医务人员心目中是更重要的因素——88% 的受访者指出了模型准确度，而 64% 指出了模型可解释性。

上一节讨论的模型可解释性与可说明性不仅可提供对模型决策方式的洞察，还能确保用户信任——因为他们可以验证决策符合伦理原则与法律标准。在医疗等高风险应用中，解释 AI 驱动结果的能力对于防止伤害并确保 AI 系统以符合社会价值观的方式运行至关重要。可解释模型允许终端用户（包括监管者）理解特定预测或决策是如何以及为何做出的。过去曾发生若干著名案例：某医疗算法（Obermeyer 等 2019）因将医疗费用用作健康需求的代理变量而优先考虑更健康的白人患者而非更患病的黑人患者；Amazon AI 招聘工具（Dastin）因历史招聘数据中的偏倚而偏向男性应聘技术岗位；Bolukbasi 等的研究显示在 Google News 文章上训练的词嵌入表现出女性/男性性别刻板印象，且性别偏倚显示被词嵌入中的某一方向所捕获。从监管视角看，欧盟《通用数据保护条例》（GDPR，"REGULATION (EU) 2016/679 of the European Parliament and of the Council of April 27, 2016"）包含"获得解释权"的定义——具体而言，GDPR 序言 71 规定个人有权获得自动化决策过程所达成的决策的解释。欧盟《人工智能法案》（AI Act，"Regulation (EU) 2024/1689 of the European Parliament and of the Council of June 13, 2024"）也规定 AI 系统的透明度与可解释性要求，要求提供关于决策如何做出的清晰信息。因此，透明度对于识别与缓解偏倚至关重要，确保 AI 系统不延续或放大现有不平等；在医疗领域这尤为关键，偏倚的 AI 系统可能导致不平等治疗并加剧健康差距。可解释 AI 将使医疗专业人员与患者能够理解并质疑 AI 驱动的决策；因此，可解释性不仅是技术要求，更是道德与负责任 AI 部署的基础元素。模型可解释性在医学研究中至关重要，因为它确保预测分析与决策过程透明度与信任；可解释模型使研究者与临床医生能够理解模型如何以及为何做出特定预测，这对验证模型的可靠性与准确性至关重要；这种透明度有助于识别潜在偏倚、理解模型局限性并确保预测符合临床知识与伦理标准；此外，可解释性通过提供可与患者及其他利益相关方沟通的洞察，促进 ML 模型整合进临床工作流，从而最终增强 AI 驱动医疗解决方案的采用与有效性。

结论（Conclusions）

本章呈现了 AI 与 ML 在多组学中日益增长的影响，强调这些方法如何转变复杂生物数据的整合与分析。随着对个体化医疗需求的增加，ML 在推进精准医学、革新多组学数据分析以及医疗与生物医学研究未来方面扮演关键角色。本章介绍了多组学数据分析与整合中最常用的监督与无监督 ML 方法；在监督方法中介绍了概率模型、基于树的模型、正则化技术、基于距离的模型、基于核的方法与基于神经网络的方法；在无监督方法中概述了几种流行的降维方法以及用于疾病亚型与患者分层的聚类技术。本章还讨论了多组学数据整合的关键策略，归为早期、中期与后期整合；并强调使用 AI 进行多组学数据分析的挑战与解决方案，包括管理数据复杂性与质量、处理不完整数据、多组学数据的高维度与小样本量问题以及 ML 模型的可解释性与可说明性。虽然近期关于使用 AI 进行多组学数据分析的大部分工作集中于癌症，但这些方法在应用于 ASCVD 研究以帮助推进对动脉粥样硬化的理解时将取得多大成功仍有待观察。

本章个人批注

本章是 Ch12"整合基因组学、转录组学、蛋白质组学、代谢组学及其他组学"与 Ch13"系统生物学与网络分析"两章方法学讨论的延伸与"应用化"。作者 Karaduzovic-Hadziabdic 与 Gruca 的写作风格非常教科书化——先概述 ML/AI 在生物医学中的兴起与 ASCVD 的复杂性背景，再分监督与无监督两个主要方法家族逐一介绍具体算法，接着讨论多组学整合策略（早期、中期、后期），最后铺陈挑战（数据复杂性、类别不平衡、缺失数据、可解释性、伦理）并以监管语境收束。整体上这是一个面向计算/数据科学读者的方法论章节，理论铺陈较厚，ASCVD 特定应用则在结论部分被一笔带过——"这些方法在 ASCVD 中能否成功有待观察"——这是本章的一个明显特征：方法论详尽，领域实例稀薄。

阅读时需警惕的几点。其一，表 14.1 列举了 8 大类监督学习模型（朴素贝叶斯、逻辑回归、决策树、随机森林、XGBoost、LASSO/Ridge、ENET、K-NN、SVM、ANN/DL），并给出"可解释性"与"计算效率"的定性评级——但这些评级是相对的、未量化的，读者不应把它们当作客观基准；事实上"高/中/低可解释性"在不同研究语境下定义不一致，作者也未给出形式化定义。其二，关于多组学整合策略，作者将其分为早期、中期（含混合与中间）、后期三种——这是一种在多组学综述中常见的分类法，但实际研究中常出现组合策略（例如先做混合转换再做早期整合），这种三分法可能过度简化。其三，缺失数据章节从 Rubin 1976 的 MCAR/MAR/MNAR 三分法出发，涵盖了从基础插补到 GAN 衍生方法（如 OmicsNMF、OmiTrans、scMM、BABEL、totalVI）的多种方法——但读者需注意 GAN 类方法在多组学中的实证应用仍然有限，Sun 等的结论"小样本量下常规方法优于 DL"在文本中只被一笔带过，值得更多关注。其四，可解释性章节区分了 interpretability 与 explainability，并引入 LIME、SHAP、DeepRED、LORE、Anchors、MUSE 等方法——但这些方法大多开发于计算机视觉/自然语言处理领域，在生物医学数据上的实证效果参差不齐。其五，伦理章节引用了三个著名的偏倚案例（Obermeyer 2019 医疗算法种族偏倚、Amazon 招聘工具性别偏倚、Bolukbasi 词嵌入性别刻板印象）以及 GDPR 与 AI Act——这些是 AI 伦理的标准引用，但与 ASCVD/多组学场景的直接关联有限，更多是"普适伦理"而非"领域特定伦理"。

与方法论章节（Ch8、Ch12、Ch13）相比，本章在生物医学领域特色上较弱：方法学内容占据主体，ASCVD 的特定应用被压缩到结论一段。这意味着读者如果想从本章获得 ASCVD 的具体 ML 应用案例，需要回到 Ch10（临床转化）或 Ch17（循环 RNA 生物标志物）寻找。结构上，本章与 Ch13（系统生物学与网络分析）形成对照——Ch13 关注"基于网络"的推断方法（相关性、贝叶斯、布尔、ODE、机器学习、互信息），本章关注"基于数据驱动"的 ML/DL 方法；两章合起来构成了"网络方法 + 统计/机器学习方法"的方法学双轨。

与上下章的衔接（一段话）

本章前承 Ch12"整合基因组学、转录组学、蛋白质组学、代谢组学及其他组学"与 Ch13"系统生物学与网络分析"两章方法学讨论。Ch12 解决了"如何把多个组学层级拼起来"的方法论问题——涵盖挑战、方法家族（统计、机器学习、网络）与转化语境；Ch13 接续这一线索，将视野从"数据整合"收窄至"调控网络推断"这一更专门的问题，逐次介绍六类推断算法与功能注释/通路分析工具。本章则是方法学章组的第三块拼图——从"调控网络推断"转向"数据驱动的多组学分析"，系统介绍监督/无监督 ML 模型、降维/聚类方法、整合策略（早/中/后期）以及数据复杂性、类别不平衡、缺失数据、可解释性、伦理等核心挑战。本章之后的内容将进入领域特定的应用章组（如 Ch15"RNA 治疗"、Ch16"RNA 递送系统"、Ch17"循环 RNA 生物标志物"、Ch18"未来方向与新兴技术"），聚焦具体治疗/诊断/技术转化。从全书的论证弧来看，Ch14 是从"通用方法学"章组向"领域特定应用"章组过渡的最终桥梁，也是 Ch8-Ch14 方法学章组的收尾——之后的内容将从"如何算"转向"用什么治/用什么诊"。