跳转至

第十章:将转录组学转化为临床实践——利用基因表达模式进行动脉粥样硬化患者的高级表型分析和分层

第一章 章节概述

本章由Nadja Sachs、Melody Chemaly、Erik A.L. Biessen和Ljubica Matic四位作者撰写,聚焦于如何将转录组学技术真正应用于动脉粥样硬化的临床实践场景。全章洋洋洒洒,覆盖了从研究设计优化、生物信息学分析流程,到影像组学与转录组学融合(即"放射转录组学"),再到临床决策工具开发等完整链条。

章节开篇即直面一个核心矛盾:临床动脉粥样硬化影像学检查已相当成熟,但斑块的分子表型分析长期停留在研究层面,难以普及到日常临床工作中。如何弥合这一鸿沟?作者提出,放射转录组学(radiotranscriptomics)作为一种新兴的交叉学科分支,有望通过将大量定量影像参数与分子数据相结合,实现疾病亚型划分和个性化治疗分配。

从结构上看,本章可大致分为两大部分。第一部分(第一节至第五节)系统阐述了开展斑块转录组学研究的关键方法学要素,包括研究目标的设定与假设提出、样本采集与实验设计、RNA质量控制、统计效能评估,以及转录组分析平台的选择与生物信息学分析管线的构建。第二部分(第六节至第九节)则着重介绍影像组学与转录组学的整合策略,涵盖主要成像技术的原理与优劣、影像参数与基因表达谱的关联方法、多模态数据整合策略,以及由此产生的临床应用前景与未来发展方向。

本章在全书中扮演着"落地转化"的角色——它将前几章积累的关于转录组学基础技术、动脉粥样硬化分子机制的知识,向临床应用方向延伸,因此具有鲜明的应用导向色彩。

第二章 关键问题与研究动机

2.1 核心科学问题

动脉粥样硬化是一种高度复杂的慢性炎症性疾病,其发生发展涉及脂质代谢紊乱、细胞行为改变、分子信号网络调控以及细胞外基质重塑等多重机制。尽管过去二十年里转录组学技术取得了长足进步,但将这些分子层面的洞见转化为临床实践中的诊断工具、预后判断依据或治疗靶点,仍然面临巨大挑战。本章围绕以下几个关键科学问题展开论述:

第一,如何系统性地识别和验证与斑块进展、不稳定乃至破裂密切相关的差异表达基因(DEGs)?这些DEGs能否成为可靠的生物标志物或治疗靶点?

第二,动脉粥样硬化斑块内部细胞构成高度异质,包括巨噬细胞、平滑肌细胞、内皮细胞、T细胞等多种免疫细胞类型。如何在转录组水平上精确解析这种细胞异质性,并揭示不同细胞亚群之间的相互作用?

第三,斑块在空间上存在显著的区域异质性——纤维帽、脂质坏死核、内膜-中膜残留物及外膜等不同区域具有截然不同的分子和细胞特征。如何在保留空间位置信息的前提下开展转录组学研究?

第四,如何将转录组学数据与临床影像学资料进行有机整合,使分子层面的信息能够真正服务于临床诊断和治疗决策?

2.2 既往研究的不足

作者指出,尽管已有大量转录组学研究报道了动脉粥样硬化中的基因表达变化,但多数研究存在以下局限:样本量偏小、缺乏纵向随访数据、未能覆盖疾病全谱系(从早期脂纹到晚期易损斑块)、对空间异质性的关注不足,以及生物信息学分析流程缺乏标准化。此外,临床影像学与分子数据之间的关联长期未能建立有效的桥梁,导致"分子层面"与"影像表型"之间存在难以逾越的鸿沟。

2.3 研究动机与临床意义

上述不足催生了本章的核心研究动机:建立一套从样本采集、实验设计、数据分析到临床转化的完整方法学框架,使转录组学真正成为动脉粥样硬化精准医学的有力工具。这一工作的临床意义毋庸置疑——动脉粥样硬化及其并发症(如心肌梗死、脑卒中)仍是全球首要死因,而现有临床决策工具(如Framingham风险评分)在年轻患者和个体化风险预测方面表现欠佳,亟需引入分子层面的新参数来提升预测准确性。

第三章 主要公式与分析方法

3.1 差异表达基因分析

转录组学研究的基础在于识别不同生理或病理状态之间的差异表达基因(DEGs)。设有两个比较组(如稳定斑块 vs. 易损斑块),对每个基因\(i\)而言,其表达量可建模为:

\[Y_i = \mu + \text{Group}_j + \epsilon\]

其中\(\mu\)为总体均值,\(\text{Group}_j\)表示组别效应,\(\epsilon\)为误差项。在实际分析中,通常使用负二项分布模型(如DESeq2和edgeR所采用)来描述RNA-seq count数据的离散特征:

\[Y_i \sim \text{NB}(\mu_i, \sigma_i^2)\]

多重假设检验的校正采用Benjamini-Hochberg方法控制假发现率(FDR):

\[q_i = p_i \times \frac{n}{k\text{-rank}(p_i)}\]

其中\(p_i\)为原始\(p\)值,\(n\)为总检验数,\(k\)\(p_i\)的秩次。筛选DEGs的常用标准为:\(| \log_2\text{FC} | > 1\)\(\text{FDR} < 0.05\)

3.2 基因集富集分析(GSEA)

GSEA通过评估一组预先定义的基因(如某通路中的所有基因)是否在两个表型之间呈现协同性上调或下调来判断该通路是否显著富集。其核心统计量为富集得分(Enrichment Score,ES):

\[\text{ES} = \max_{k} \left( \sum_{i=1}^{k} \frac{r_i}{|r|} - \sum_{i=k+1}^{N} \frac{1}{N - k} \right)\]

其中\(r_i\)为基因\(i\)与其表型间的相关系数,\(N\)为总基因数。标准化富集得分(NES)用于在不同基因集之间进行可比性比较。

3.3 RNA-seq数据归一化

为消除文库大小和基因长度差异导致的系统性偏差,常用的归一化方法包括:

TPM(Transcripts Per Million):

\[\text{TPM}_i = \frac{Y_i / l_i}{\sum_j Y_j / l_j} \times 10^6\]

其中\(Y_i\)为基因\(i\)的read count,\(l_i\)为基因长度(kb)。

RPKM(Reads Per Kilobase per Million):

\[\text{RPKM}_i = \frac{Y_i}{l_i \times M} \times 10^9\]

其中\(M\)为总mapped reads数(百万)。

3.4 批次效应校正

当样本来自不同实验批次时,使用ComBat算法进行经验贝叶斯批次效应校正:

\[\tilde{Y}_{ij} = Y_{ij} - \hat{\alpha}_j - \hat{\gamma}_j \cdot \hat{\beta}_{ij}\]

其中\(\hat{\alpha}_j\)\(\hat{\gamma}_j\)分别为批次\(j\)的加性效应和倍增效应估计值,\(\hat{\beta}_{ij}\)为协变量效应。

3.5 细胞组分去卷积

对于bulk RNA-seq数据,CIBERSORT算法利用线性支持向量机(SVM)估算样本中各类细胞类型的比例。设\(W\)为由单细胞参考数据构建的基因表达特征矩阵,\(b\)为待估算的细胞丰度向量,则:

\[\tilde{b} = \arg\min_b \| W b - Y \|^2 \quad \text{s.t.} \sum b_i = 1, \; b_i \geq 0\]

第四章 关键算法与建模方法

4.1 转录组分析平台的选择

作者系统比较了四种主要转录组分析技术的特点与适用场景:

微阵列(Microarray): 作为传统技术,成本较低,适合大规模筛选性研究,但动态范围有限,无法检测新转录本。

Bulk RNA-seq: 能够在全基因组水平定量基因表达,检测罕见转录亚型和低丰度基因。推荐测序深度为每样本20–5000万reads,可靠地覆盖绝大多数转录本。

单细胞RNA-seq(scRNA-seq): 在单细胞水平解析细胞异质性,是识别斑块中罕见细胞亚群和研究细胞间相互作用的利器。近年来已成为动脉粥样硬化研究的标准工具,成功揭示了巨噬细胞亚群(如泡沫细胞)、平滑肌细胞转分化等关键病理过程。

空间转录组学(Spatial Transcriptomics): 能够在组织原位保留空间信息,直接将基因表达谱映射到组织切片上,特别适合解析斑块内不同区域的分子特征差异,如纤维帽vs.脂质坏死核的转录组差异。

成本方面,Bulk RNA-seq最为经济,scRNA-seq因文库制备复杂和计算需求高而显著更贵,空间转录组学成本最高,目前主要限于研究层面。

4.2 生物信息学分析管线

完整的转录组分析流程包括以下关键步骤:

第一步:质量控制。 使用FASTQC和MultiQC评估原始测序数据的质量指标(read质量、GC含量、接头污染等),识别并剔除低质量样本。

第二步:比对与定量。 使用STAR或HISAT2将reads比对到参考基因组,随后用HTSeq、featureCounts或kallisto进行基因表达定量。

第三步:差异表达分析。 使用DESeq2、edgeR或limma进行统计检验,结合Benjamini-Hochberg方法控制FDR。

第四步:功能注释与富集分析。 通过GO分析、KEGG、Reactome和GSEA等工具揭示差异基因的生物学意义和通路富集情况。

第五步:单细胞数据分析(针对scRNA-seq)。 使用Seurat、Scanpy或Cell Ranger进行细胞聚类、轨迹分析和细胞类型注释。

第六步:整合临床数据。 引入机器学习方法和多变量模型,将转录组数据与临床变量(如血生化指标、用药情况、预后结局)进行关联分析。

4.3 影像组学与转录组学整合策略

这是本章最具创新性的部分——放射转录组学。其核心思路是:从临床影像中提取大量定量参数(影像组学特征),与转录组学数据关联,从而推断斑块内部的分子活动。

数据整合方法:

矩阵分解法:识别转录组与影像组数据之间的共享模式,实现降维和特征提取。

图神经网络(GNN):基于已知生物学通路和蛋白互作关系构建网络图,将不同模态数据嵌入统一空间进行整合预测。

机器学习/深度学习方法:随机森林、神经网络、支持向量机和自编码器等算法被广泛用于构建疾病预测或治疗反应预测模型。例如,Bouhamama等人使用支持向量机将影像组学特征与转录组数据整合,预测非小细胞肺癌患者对免疫检查点抑制剂的治疗反应。

代表性应用案例: Buckler等人将CT血管造影的斑块形态学特征与微阵列获得的斑块转录组数据整合,发现IL1R1表达与脂质坏死核体积相关,TGFBR2表达与高度钙化病变相关,开创了"虚拟转录组学"(virtual transcriptomics)的研究范式。

第五章 主要结论

本章的核心结论可归纳为以下几点:

第一,系统性的转录组学研究设计是获取高质量数据的前提。研究目标必须明确,假设必须清晰,样本采集必须规范化,RNA质量控制必须严格。多样化的样本来源(涵盖从早期脂纹到晚易损斑块的全疾病谱系)和均衡的人口统计学特征(性别、年龄、遗传背景)对于研究结果的普适性至关重要。

第二,单细胞转录组学和空间转录组学的兴起根本性地改变了我们解析斑块异质性的能力。这两项技术使我们能够在单细胞分辨率下描绘斑块的细胞图谱,揭示过去bulk RNA-seq无法捕捉到的稀有细胞亚群和空间特异性的分子特征。

第三,放射转录组学代表了一个极具前景的转化研究新方向。通过将影像组学提取的定量参数与转录组学数据相关联,有望实现真正意义上的"无创分子表型分析"——即仅凭CT、MRI等常规影像学检查即可推断斑块内部的分子驱动机制,从而指导临床决策。

第四,多组学整合(转录组+蛋白质组+代谢组+表观基因组)是深化对动脉粥样硬化复杂发病机制理解的关键路径。单一组学数据难以全面描绘疾病的分子调控网络,多层组学数据的交叉验证能够显著提升发现的可靠性。

第五,尽管技术进步迅速,将转录组学生物标志物整合到临床决策工具中仍处于早期阶段。目前已有将影像组学参数(如FAI评分)与传统心血管风险因素相结合的算法,在预测致死性心脏事件方面展现出优于传统工具的性能,为未来的精准医学应用奠定了基础。

第六章 挑战与开放问题

6.1 样本与数据层面的挑战

样本获取的局限性: 人类斑块样本主要来源于颈动脉内膜切除术、冠状动脉旁路移植术或尸检,这些样本来源存在显著的 selection bias——它们并不能代表全部动脉粥样硬化患者群体,尤其是早期病变患者几乎无法获得组织样本。此外,尸检材料的RNA质量普遍偏低,对敏感的转录组分析构成挑战。

动物模型的外推困难: 现有动物模型(无论是小鼠、家兔还是猪)均无法完美模拟人类动脉粥样硬化的自然进程,尤其是斑块破裂这一关键的临床事件。这主要源于物种间在斑块组成、力学性质、脂质代谢和免疫反应方面的根本差异。因此,将动物模型中发现的转录组学改变直接外推至临床需要极度谨慎。

数据标准化不足: 不同研究在样本处理、RNA提取、测序平台和生物信息学分析流程方面存在显著差异,导致研究间可比性差。影像组学领域同样缺乏标准化的图像采集和特征提取方案,不同软件工具箱之间的结果重现性较低。

6.2 技术层面的挑战

多模态数据整合的技术瓶颈: 放射转录组学面临的核心技术挑战包括:缺乏同时拥有RNA-seq数据和医学影像数据的匹配队列;影像组学特征提取存在"噪声"问题——低分辨率图像引入的技术伪影可能被误解释为生物学信号;影像与转录组数据之间的时空对应关系难以确保。此外,放射组学工具的敏感度较低,易受技术伪影干扰。

计算资源与算法复杂度: scRNA-seq和空间转录组学产生了海量的高维数据,对计算资源和生物信息学专业知识提出了极高要求。图神经网络和深度学习方法虽然表现优异,但存在模型过拟合和泛化能力不足的问题。

模型可解释性: 机器学习/深度学习构建的预测模型往往是"黑箱",缺乏生物学可解释性。将模型整合到临床风险评分体系中,使其能够真正指导临床行动,仍需要大量工作。

6.3 临床转化层面的挑战

监管审批路径: 将基于转录组学的检测方法或影像组学-转录组学联合模型推向临床需要通过严格的监管审批(FDA、NMPA等),这需要大规模前瞻性验证研究作为支撑。

伦理与隐私: 人体组织样本的研究必须遵循《赫尔辛基宣言》等伦理准则,获得机构伦理委员会批准,并确保知情同意和数据匿名化。跨机构数据共享还涉及GDPR等数据保护法规的合规问题。

6.4 开放科学问题

数字孪生(Digital Twins): 未来能否构建患者个体化的动脉粥样硬化数字孪生模型,整合影像组学、转录组学、蛋白质组学和血流动力学参数,在虚拟环境中模拟疾病进展和治疗反应?

联邦学习(Federated Learning): 能否利用联邦学习框架在保护患者隐私的前提下,跨多家医院联合训练AI模型,从而解决数据孤岛和样本量不足的问题?

空间多组学: 将空间转录组学与空间蛋白质组学、空间代谢组学叠加,是否能够实现斑块微环境分子图谱的完整重建?

第七章 个人思考与批判性分析

7.1 对作者方法学框架的评价

本章的一大亮点在于其方法学论述的系统性和完整性——从研究设计、样本采集、实验技术、分析流程到临床转化,构成了一个闭环的逻辑链条。这对于希望开展斑块转录组学研究的研究人员来说具有很强的实践指导价值。特别是作者对不同转录组分析平台的横向比较,以及对各类成像技术在斑块评估中优劣之处的深入分析,均体现了丰富的实战经验。

然而,本章也存在一些值得商榷之处。首先,在"假设驱动"与"无假设"研究的论述上略显简单化——作者虽然区分了这两种研究范式,但未能深入探讨它们在转录组学这一高维数据背景下的内在张力。事实上,在面对数万个基因时,完全"无假设"的研究在统计推断上天然面临多重比较的严峻挑战。

7.2 关于放射转录组学的思考

放射转录组学作为新兴交叉领域,其概念创新性值得肯定。但笔者认为,目前该领域存在明显的过热倾向——多个"首例"研究在方法学上尚不成熟,样本量普遍偏小(数十例至百余例),且多为回顾性研究。以CT影像组学特征预测转录组表达这一思路,隐含了一个前提假设:影像表型与分子表型之间存在稳定可复现的映射关系。但我们知道,基因表达的调控是高度动态和 context-dependent 的,同样的影像学表现(如"餐巾环征")可能对应完全不同的分子通路激活模式。因此,放射转录组学的预测模型可能更适合捕捉一些高度保守的、广泛适用的规律,而非精细的分子调控细节。

7.3 对动脉粥样硬化精准医学前景的反思

本章多次提到"精准医学"和"个体化治疗",但笔者认为在动脉粥样硬化领域实现真正意义上的个体化仍有漫长道路。动脉粥样硬化并非单一基因疾病,而是遗传因素、环境因素和生活方式共同作用的结果。即便我们能够完整描绘某个患者斑块的转录组特征,将其转化为可操作的治疗决策仍需要跨越巨大的知识鸿沟。例如,发现某个患者的斑块中IL-1β通路显著激活,是否就意味着IL-1受体拮抗剂(anakinra)或秋水仙碱对他/她一定有效?目前的临床证据表明答案并非简单的是或否——CANTOS和COLCOT等大型临床试验已经证明了IL-1β抑制在降低心血管事件方面的益处,但精准筛选最可能受益的患者亚群仍是进行时的工作。

7.4 对未来研究方向的建议

笔者认为,以下几个方向值得重点关注:一是开展大规模多中心纵向研究,将转录组学、影像组学和临床结局数据进行系统整合;二是发展更先进的空间多组学技术,实现同一组织切片上转录组、蛋白质组和代谢组的同步成像;三是建立标准化的数据共享机制和元数据规范,使不同研究之间的结果能够进行可靠比较;四是加强对非编码RNA(如lncRNA、circRNA)在斑块进展中作用的转录组学研究,因为目前多数工作仍集中于蛋白质编码基因,而大量非编码转录本的生物学功能在动脉粥样硬化中远未阐明。

7.5 本章在全书中地位的思考

作为一本关于动脉粥样硬化转录组学的专著的第十章,本章承担着"收官"性质的方法论总结和转化应用展望的角色。它将前几章积累的分子机制知识和实验技术方案,导向一个更高层次的应用目标——临床决策支持。从这个意义上说,本章不仅是对前面各章的呼应,更是对全书的理论-应用转化关系的点题所在。

公式汇总

编号 名称 形式 物理意义 类型
(10.1) 差异表达基因模型 \(Y_i = \mu + \text{Group}_j + \epsilon\) 基因表达量与组别效应的线性关系 (T)
(10.2) 负二项分布模型 \(Y_i \sim \text{NB}(\mu_i, \sigma_i^2)\) RNA-seq count数据的概率分布建模 (T)
(10.3) Benjamini-Hochberg校正 \(q_i = p_i \times \frac{n}{k\text{-rank}(p_i)}\) 多重检验FDR控制 (T)
(10.4) GSEA富集得分 $\text{ES} = \max_{k} \left( \sum_{i=1}^{k} \frac{r_i}{ r } - \sum_{i=k+1}^{N} \frac{1}{N - k} \right)$
(10.5) TPM归一化 \(\text{TPM}_i = \frac{Y_i / l_i}{\sum_j Y_j / l_j} \times 10^6\) 按基因长度归一化的表达量指标 (T)
(10.6) RPKM归一化 \(\text{RPKM}_i = \frac{Y_i}{l_i \times M} \times 10^9\) 按文库大小和基因长度双重归一化 (T)
(10.7) ComBat批次校正 \(\tilde{Y}_{ij} = Y_{ij} - \hat{\alpha}_j - \hat{\gamma}_j \cdot \hat{\beta}_{ij}\) 消除实验批次引入的系统性偏差 (E)
(10.8) CIBERSORT去卷积 \(\tilde{b} = \arg\min_b \| W b - Y \|^2\) 从bulk RNA-seq估算细胞组成比例 (T)

注:(T)=理论推导,(E)=经验公式

延伸阅读

  • Williams JW et al. Single cell RNA sequencing in atherosclerosis research. Circ Res. 2020;126(9):1112–26.
  • Fernandez DM et al. Single-cell immune landscape of human atherosclerotic plaques. Nat Med. 2019;25(10):1576–88.
  • Mokry M et al. Transcriptomic-based clustering of human atherosclerotic plaques identifies subgroups with different underlying biology and clinical presentation. Nat Cardiovasc Res. 2022;1(12):1140–55.
  • Buckler AJ et al. Virtual transcriptomics: noninvasive phenotyping of atherosclerosis by decoding plaque biology from CTA imaging. Arterioscler Thromb Vasc Biol. 2021;41(5):1738–50.
  • Oikonomou EK et al. Standardized measurement of coronary inflammation using cardiovascular computed tomography. Cardiovasc Res. 2021;117(13):2677–90.