跳转至

第十二章:整合多组学——基因组学、转录组学、蛋白质组学和代谢组学的融合

第一节:章节概述

本章由Panagiotis Alexiou、Aleksandra Gruca、José Basílio、Kanita Karaduzovic-Hadziabdic、David P. Kreil和Stephanie Bezzina Wettinger等学者共同撰写,隶属于Elsevier出版社2026年出版的《Transcriptomics in Atherosclerosis》一书。第十二章聚焦于多组学数据整合的核心方法与挑战,旨在探讨如何将基因组学、转录组学、蛋白质组学和代谢组学等多个层面的生物信息进行系统性融合,以获取更完整的生物学图像。

多组学整合研究的背景源于近年来高通量DNA和RNA测序技术的飞速发展,以及蛋白质组学和代谢组学测量技术的日益成熟。研究者已经能够从多个组学层面收集海量数据:基因组学可揭示单核苷酸变异(SNV)和插入缺失变异(indel)、DNA甲基化、结构变异和拷贝数变异等信息;转录组学可获取mRNA和非编码RNA数据,包括长链非编码RNA(lncRNA)和微小RNA(miRNA)等;蛋白质组学能够鉴定和定量蛋白质,并检测翻译后修饰(PTM);代谢组学则测量代谢途径产生的小分子代谢物。这些多维度数据共同构成了理解复杂疾病(如动脉粥样硬化性心血管疾病,ASCVD)的完整分子画像。

本章内容涵盖多组学数据整合面临的挑战、通用概念、具体整合方法(包括稀疏多元典型相关分析、稀疏偏最小二乘判别分析、核偏最小二乘、多组学因子分析、贝叶斯网络模型和聚类方法等)、混杂因素控制,以及多组学数据整合在病例分层和患者网络整合中的潜在应用。最终,本章指出多组学整合领域仍处于早期阶段,尽管已开发出多种有前景的方法,但仍面临诸多挑战,需要进一步发展完善。

第二节:关键问题与研究动机

多组学数据整合研究的核心科学问题可归纳为以下几个方面:

问题一:如何有效整合不同层面的组学数据? 从基因组学到转录组学,再到蛋白质组学和代谢组学,各层组学数据在生物学意义上存在递进关系——越接近表型端的数据越能反映遗传和环境因素的共同作用。然而,不同组学层面的数据具有异质性,数据类型、维度和测量精度各异,如何有效整合一直是该领域的关键难题。

问题二:如何处理多组学研究中的高维度诅咒? 多组学数据集的一个显著特征是测量变量数远大于样本数,这种"维度诅咒"会导致机器学习模型过度复杂化,开始捕获噪声而非底层数据模式,进而产生过拟合问题,严重影响模型的泛化能力。

问题三:如何确保研究样本的代表性? 生物性别和种族对疾病发病率、存活率、药物反应、分子途径和表观遗传学均有显著影响。然而,目前大多数多组学研究以欧洲血统人群为主,存在严重的种族代表性不足问题,这限制了研究结果的普适性。

问题四:如何克服组学层面间低相关性的困境? 有研究表明,mRNA水平与相应蛋白质水平之间的相关性并不一定很高,这与转录后和翻译后调控步骤、测量灵敏度差异等因素有关。这一发现对多组学数据整合策略具有重要指导意义——并非数据层面越多越好,盲目增加组学类型可能反而降低预测性能。

问题五:如何将多组学整合方法应用于ASCVD的精准医学? 多组学研究的最终目标包括病例亚型分层、疾病机制通路识别、候选药物靶点发现以及生物标志物鉴定等。在ASCVD这一复杂疾病领域,如何实现这些目标仍是当前研究的重点和难点。

研究动机方面,传统单一组学分析难以全面揭示复杂疾病的分子机制。基因与基因、基因与环境之间存在复杂的相互作用网络,共同调控转录、翻译和代谢过程。多组学整合策略有望从系统生物学角度深入理解疾病因果关系,为预防、治疗和监测提供新的解决方案。

第三节:主要公式与推导

本章涉及多个整合方法的数学原理,以下对核心公式进行整理说明。

3.1 稀疏多元典型相关分析(SMCCA)

典型相关分析(CCA)旨在识别两个数据集之间线性组合的最大相关性。其基本目标是找到向量\(\mathbf{a}\)\(\mathbf{b}\),使得两个数据集\(\mathbf{X}\)\(\mathbf{Y}\)之间的相关性最大化:

\[\ corr(\mathbf{a}^T\mathbf{X}, \mathbf{b}^T\mathbf{Y}) = \frac{\mathbf{a}^T\mathbf{X}\mathbf{Y}^T\mathbf{b}}{\sqrt{\mathbf{a}^T\mathbf{X}\mathbf{X}^T\mathbf{a}}\sqrt{\mathbf{b}^T\mathbf{Y}\mathbf{Y}^T\mathbf{b}}} \]

SMCCA在此基础上引入稀疏性约束,通过\(l_1\)范数惩罚选择最相关的特征,减少噪声干扰。在应用于MESA和JHS队列的蛋白质组学和甲基化组学数据时,Gram-Schmidt(GS)算法被用于改善典型变量(CV)的正交性,减少多重共线性。

3.2 稀疏偏最小二乘判别分析(sPLS-DA)

sPLS-DA是偏最小二乘判别分析的稀疏扩展版本。标准PLS回归通过最大化\(\mathbf{X}\)\(\mathbf{Y}\)之间的协方差来寻找潜在因子。设\(\mathbf{X}\)为中心化矩阵,\(\mathbf{Y}\)为响应矩阵,PLS寻找权重向量\(\mathbf{w}\)\(\mathbf{c}\),使得:

\[ \max_{\mathbf{w},\mathbf{c}} \mathbf{w}^T\mathbf{X}^T\mathbf{Y}\mathbf{c} \quad \text{subject to} \quad \|\mathbf{w}\| = 1, \|\mathbf{c}\| = 1 \]

sPLS-DA在此基础上引入lasso惩罚,对加载向量进行变量选择:

\[ \hat{\mathbf{w}} = \arg\max_{\mathbf{w}} \mathbf{w}^T\mathbf{X}^T\mathbf{Y}\mathbf{Y}^T\mathbf{X}\mathbf{w} - \lambda\|\mathbf{w}\|_1 \]

其中\(\lambda\)为调谐参数,控制稀疏程度。DIABLO框架基于mixOmics R包实现了多组学数据的sPLS-DA整合。

3.3 核偏最小二乘(KPLS)与融合核方法

核方法通过"核技巧"将原始数据映射到高维特征空间,捕获不同组学层面之间的非线性关系。对于输入数据\(\mathbf{x}_i\),核函数\(k(\mathbf{x}_i, \mathbf{x}_j)\)计算其在高维空间的内积:

\[ k(\mathbf{x}_i, \mathbf{x}_j) = \langle \phi(\mathbf{x}_i), \phi(\mathbf{x}_j) \rangle \]

融合KPLS(fKPLS)模型通过遗传算法(GA)优化组合多个核函数:

\[ K_{fused} = \sum_{m=1}^{M} \alpha_m K_m, \quad \sum_{m=1}^{M} \alpha_m = 1, \alpha_m \geq 0 \]

其中\(K_m\)为第\(m\)个组学数据对应的核矩阵,\(\alpha_m\)为组合权重。

3.4 多组学因子分析(MOFA)

MOFA是一种无监督学习方法,通过识别潜在因子来捕获不同数据类型之间的变异来源。设共有\(M\)个组学数据视图,MOFA假设每个视图\(\mathbf{Y}^m\)\(K\)个潜在因子共同解释:

\[ \mathbf{Y}^m = \mathbf{U}\mathbf{W}^m + \boldsymbol{\epsilon}^m \]

其中\(\mathbf{U} \in \mathbb{R}^{N \times K}\)\(K\)个潜在因子在\(N\)个样本上的得分矩阵,\(\mathbf{W}^m \in \mathbb{R}^{K \times F^m}\)为第\(m\)个视图的加载矩阵,\(\boldsymbol{\epsilon}^m\)为噪声矩阵。通过贝叶斯推断估计模型参数。

公式汇总

编号 名称 形式 物理意义 类型
(12.1) 典型相关分析 \(corr(\mathbf{a}^T\mathbf{X}, \mathbf{b}^T\mathbf{Y})\) 两个数据集线性组合的最大相关性 (T)
(12.2) SMCCA稀疏惩罚 \(\hat{\mathbf{w}} = \arg\max \mathbf{w}^T\mathbf{X}^T\mathbf{Y}\mathbf{Y}^T\mathbf{X}\mathbf{w} - \lambda\|\mathbf{w}\|_1\) \(l_1\)惩罚的变量选择 (T)
(12.3) 融合核函数 \(K_{fused} = \sum_{m=1}^{M} \alpha_m K_m\) 多组学核函数加权组合 (T)
(12.4) MOFA模型 \(\mathbf{Y}^m = \mathbf{U}\mathbf{W}^m + \boldsymbol{\epsilon}^m\) 潜在因子分解的多组学数据表示 (T)

注:(T)表示理论推导公式

第四节:关键算法与建模方法

4.1 数据整合的三种主流策略

多组学数据整合方法总体可分为三种策略:早期整合(early integration)、中期整合(middle integration)和晚期整合(late integration)。

早期整合将各组学层面的数据拼接成单一大型矩阵,然后使用标准统计或机器学习方法进行分析。这种方法简单直接,但可能忽略不同数据类型的异质性。

中期整合基于数据转换进行整合,可以对每个组学层独立进行转换或联合转换。典型方法包括典型相关分析(CCA)和偏最小二乘(PLS)等。

晚期整合分别为每个组学层建立独立模型,然后通过加权投票、堆叠(stacking)或其他集成方法组合各模型的预测结果。

4.2 相似性网络融合(SNF)

SNF是一种网络化的数据整合方法,利用网络表示充分发挥不同数据源的互补性和患者之间的相似性。算法步骤如下:首先为每种数据类型构建患者相似性网络,每个节点代表一个患者,边权重反映两个患者在特定数据类型上的相似性;然后通过跨网络的消息传递进行网络融合,将不同数据类型的网络迭代更新,最终得到统一的相似性网络。SNF已成功应用于心力衰竭亚型识别,具有在ASCVD领域进一步推广的潜力。

4.3 ViLoN算法

ViLoN(Variation of Information fused Layers of Networks)是一种新颖的网络融合方法,专门设计用于小样本量场景。与SNF不同,ViLoN从一开始就整合功能通路水平的领域知识,利用Gene Ontology(GO)和Kyoto Encyclopedia of Genes and Genomes(KEGG)等数据库的专家注释信息。该算法通过信息变异(Variation of Information)度量融合多层网络,在多个独立队列(包括直肠腺癌90例和食管癌180例等小型队列)中表现优于现有方法,证明了其在小样本条件下的鲁棒性。

4.4 聚类方法

iCluster框架通过联合潜在变量方法进行聚类,基于跨组学层面的相关性进行样本分组。原始iCluster应用于DNA拷贝数、甲基化和mRNA表达数据以识别乳腺癌和肺癌的分子亚型。iClusterPlus扩展支持更广泛的数据类型,包括分类和连续变量。iClusterBayes进一步引入贝叶斯方法,提升了统计推断和计算效率。

4.5 降维与矩阵分解方法

低秩近似方法通过建立不同数据类型对共享潜在因子的条件概率模型,实现多组学数据降维。变分独立成分分析(Variational ICA)是另一种有效的多模态数据降维方法。此外,主成分分析(PCA)的联合版本也被广泛用于多组学数据整合。

第五节:主要结论

本章系统阐述了多组学数据整合在动脉粥样硬化性心血管疾病研究中的应用,主要结论如下:

结论一:多组学整合具有重要生物学价值。 从基因组学到转录组学、蛋白质组学,再到代谢组学,各层数据越接近表型端,越能整合遗传和环境因素的共同影响。这解释了为何历史上代谢物、脂质和蛋白质测量(如lpA、hsCRP和血脂谱)作为生物标志物具有较好的表现。

结论二:整合策略的选择至关重要。 Li等人的研究表明,在癌症生存预测中,单独使用mRNA数据或结合miRNA数据即可获得准确预测,增加更多数据类型反而可能降低性能。因此,多组学整合应基于具体生物学问题审慎设计,而非盲目追求数据类型的数量。

结论三:多种统计和机器学习方法已成功应用于多组学整合。 SMCCA、sPLS-DA、fKPLS、MOFA、贝叶斯网络和聚类方法等均已在心血管疾病研究中得到应用验证。例如,MOFA在Framingham Offspring Study中的应用成功识别了30个潜在因子,其中4个因子与心血管疾病风险显著相关,特别是在女性群体中发现了炎症和细胞周期调控相关的通路。

结论四:网络化方法为小样本场景提供了有效解决方案。 ViLoN算法通过早期整合功能领域知识,在小型队列中展现出优异性能,弥补了传统方法在小样本条件下的不足。这一发现对ASCVD研究具有重要启示意义,因为获取大规模ASCVD患者队列仍然具有挑战性。

结论五:多组学数据整合为病例亚型分层提供了新途径。 通过分子特征或模式识别疾病亚型,有望实现更好的风险分层和精准医学策略。例如,ST段抬高型心肌梗死(STEMI)和非ST段抬高型心肌梗死(NSTEMI)已知的亚型差异可能源于不同的分子机制,多组学分析有助于揭示这些差异。

第六节:挑战与开放问题

尽管多组学数据整合展现出巨大潜力,但该领域仍面临诸多挑战和未解决的科学问题:

挑战一:数据动态性与测量成本。 与稳定的基因组序列不同,表观基因组、转录组、蛋白质组和代谢组随时间变化,反映遗传和环境因素的共同影响。由于成本高昂,通常仅进行一次测量,这限制了对疾病进展动态监测的能力。此外,ASCVD相关组织的获取(如动脉粥样硬化斑块)十分困难,大多数研究只能基于血液或血液成分进行。

挑战二:技术异质性与批次效应。 每种组学技术都有其固有的局限性和挑战。蛋白质组学和代谢组学中的分子鉴定面临挑战;转录组学存在比对、可变剪接和参考基因组版本等问题;基因组学的结构变异和拷贝数变异分析技术仍在改进中。更重要的是,不同实验室、技术平台之间的批次效应可能掩盖真实的生物学信号。

挑战三:缺失数据与不平衡数据。 多组学数据常存在不完整性,处理缺失数据的方法包括删除、建模允许缺失或插补,但各有优缺点。不平衡数据集或完全分离(如家族性高胆固醇血症中的强遗传效应)需要使用Firth's逻辑回归、Lasso、Ridge、SVM或决策树等专用工具。

挑战四:种族和性别代表性不足。 研究表明,超过85%的基因组学研究基于欧洲血统人群,表观基因组研究中约87%的实验也标注为"欧洲"。性别方面,仅有约21%-28%的动脉粥样硬化研究同时纳入男性和女性样本。这种代表性不足限制了研究结果的普适性,并可能导致针对特定人群的偏倚。

挑战五:药物使用对数据分析的影响。 许多ASCVD患者服用他汀类药物,这类药物不仅影响代谢物水平,还已知会影响基因表达。然而,目前的多组学研究普遍未考虑药物使用的影响,这在分析中引入潜在的混杂因素。

挑战六:隐私与数据共享。 基因组和转录组数据具有可识别性,这限制了数据共享。ASCVD等复杂疾病的研究尤其需要大规模数据共享以推进科学发展。欧洲基因组-表型档案(EGA)和联邦欧洲基因组-表型档案(FEGA)等数据平台的建设是解决这一问题的重要进展。

开放问题: 如何开发更强大的可视化工具以展示多组学数据的复杂性?如何在多组学分析中更好地整合生活方式和环境因素?如何在"领域偏移"问题背景下确保模型的跨数据集泛化能力?这些问题仍需进一步研究探索。

第七节:个人思考与批判性分析

7.1 对章节内容的方法论思考

本章系统性地介绍了多组学数据整合的主流方法论框架,这一系统性梳理对于研究实践具有重要指导意义。然而,笔者认为章节在以下方面值得进一步思考和探讨:

首先,关于"并非数据层面越多越好"这一关键结论的讨论略显不足。Li等人关于癌症生存预测的研究结果表明,简单增加组学数据类型可能适得其反。然而,这一结论背后的机制解释仍需深入探讨——是因为各组学层之间的冗余信息?还是因为噪声的累积放大效应?理解这一现象的生物学本质将有助于设计更合理的整合策略。

其次,本章对不同整合方法的适用场景讨论有限。早期、中期和晚期整合策略各有优缺点,但缺乏明确的场景化指导原则。例如,在样本量有限的情况下,哪种策略更具优势?在异质性较高的数据集上,应如何选择?这些问题对于研究设计具有重要指导价值。

7.2 对研究现状的批判性评估

从批判性角度审视,当前多组学研究存在以下值得关注的问题:

理论与实践的脱节。 尽管多种先进的统计和机器学习方法被引入多组学领域,但大多数方法最初在癌症领域开发和验证。ASCVD与癌症在病理生理机制、数据特征和研究设计上存在显著差异,直接套用可能不是最优选择。本章虽提及SNF等方法在心力衰竭中的成功应用,但系统性的跨疾病方法比较仍然缺乏。

临床转化的挑战。 多组学研究的最终目标之一是临床转化,包括生物标志物开发、药物靶点发现和精准医学实践。然而,本章主要聚焦于方法学介绍,对临床转化路径的讨论相对薄弱。如何将多组学发现的分子标志物或通路转化为临床可用的诊断工具或治疗靶点,需要更深入的方法学创新和验证研究。

开放数据的悖论。 一方面,多组学研究需要大规模数据共享以推动发展;另一方面,基因组数据的隐私敏感性使得数据共享面临巨大挑战。FEGA等联邦分析平台提供了一种有希望的解决思路,但其实际应用效果仍待验证。此外,数据共享与知识产权之间的关系也需在制度层面加以明确。

7.3 对未来研究方向的展望

基于本章内容,笔者认为多组学整合在ASCVD领域的研究可从以下方向深入推进:

第一,单细胞多组学整合的深化。 章节提及的单细胞测量技术(包括单细胞RNA、染色质可及性、空间信息、单细胞蛋白质组和代谢状态等)为在单细胞分辨率下理解ASCVD的细胞异质性提供了前所未有的机会。然而,单细胞多组学的数据整合方法仍处于早期发展阶段,需要更多方法学创新。

第二,多模态数据与临床信息的深度融合。 章节提到多层数据(包括生活方式、临床参数和影像学数据)可能具有优势,但如何有效整合这些异质性数据仍是未解决的挑战。深度学习等先进方法可能在处理多模态异构数据方面展现出独特优势。

第三,跨种族和跨人群研究的系统开展。 鉴于当前多组学研究中严重的种族代表性不足问题,系统性地在非欧洲人群中开展多组学研究不仅是伦理要求,也是科学发展的必然需要。这需要国际合作、资源投入和能力建设的多方位支持。

7.4 对个人研究实践的启示

作为读者,笔者从本章获得以下实践性启示:在设计多组学整合研究时,应首先明确研究问题和生物学假设,选择合适的整合策略而非盲目追求数据类型数量;应充分考虑性别和种族因素,在研究设计和数据分析中予以控制;面对小样本挑战时,网络化方法和领域知识整合可能提供有效的解决路径;此外,应重视数据可视化和结果解释的可重复性问题,确保研究发现能够经受独立验证。


参考文献

本章参考文献涵盖了多组学整合领域的核心文献,包括SMCCA在MESA和JHS队列中的应用(Jiang et al., 2023)、sPLS-DA在动脉粥样硬化斑块中的研究(Jin et al., 2021)、MOFA在Framingham Offspring Study中的应用(Palou-Márquez et al., 2021)、ViLoN算法(Kaňduľa et al., 2023)、SNF方法(Wang et al., 2014)等。如需深入了解特定方法或应用场景,建议读者查阅原始文献。