第八章:转录组学方法要点——穿越RNA测序及其他
书名:Transcriptomics in Atherosclerosis 作者:Yvan Devaux 主编 出版社:Elsevier 出版年份:2026年 章节:第八章 原文页码:第131–172页
第一节 章节概述
本章由Victoria Stopa及其合作者撰写,系统性地介绍了转录组学研究中的核心技术方法,旨在为动脉粥样硬化研究提供全面的技术框架。转录组学作为研究细胞或组织在特定时间和条件下产生的全部RNA转录本的科学,自20世纪90年代初Frederick Sanger首次使用双脱氧链终止法对随机RNA转录本进行测序以来,已经取得了长足的进步。本章详细阐述了靶向方法和非靶向方法两大类转录组学技术路线,涵盖从经典的定量PCR、微阵列,到现代的RNA测序、单细胞RNA测序以及空间转录组学等前沿技术。
在动脉粥样硬化这一复杂疾病背景下,转录组学研究已经为斑块形成和进展的分子机制提供了深入的理解。通过靶向和非靶向方法的结合应用,研究者们已经识别出与炎症、脂质代谢和细胞外基质重塑相关的关键生物标志物,这些发现显著推动了人们对疾病病理生理学的认识,并为精确诊断工具和潜在治疗干预手段的开发开辟了新的途径。本章的撰写目的正是为了帮助研究者理解和选择适合其研究目标的各种转录组学技术手段。
第二节 关键问题与研究动机
2.1 核心科学问题
本章围绕以下关键科学问题展开论述:首先,如何在转录组水平上全面理解动脉粥样硬化的发病机制?传统的病理学方法只能提供静态的组织学图像,而转录组学方法则能够揭示在疾病发展过程中基因表达的动态变化模式。动脉粥样硬化作为一种多因素影响的疾病,涉及内皮细胞、平滑肌细胞、巨噬细胞等多种细胞类型的复杂相互作用,转录组学为解析这种细胞异质性提供了强有力的工具。
其次,不同转录组学技术各自的优缺点是什么,研究者应如何根据研究目的选择合适的方法?本章详细对比了靶向方法和非靶向方法的差异,包括灵敏度、通量、成本、数据分析复杂度等多个维度的考量。对于专注于特定基因或通路的假设驱动研究,靶向方法更为合适;而对于探索性研究或需要发现新转录本的情况,非靶向方法则更具优势。
第三,如何在单细胞分辨率水平上理解动脉粥样硬化斑块内的细胞异质性?传统bulk RNA-seq只能提供所有细胞的平均基因表达数据,掩盖了不同细胞类型之间的差异。单细胞RNA测序技术的发展使得研究者能够识别动脉粥样硬化斑块中的多种细胞类型及其亚群,包括平滑肌细胞、内皮细胞、成纤维细胞、巨噬细胞等,并揭示它们在疾病进展过程中的表型转换。
第四,如何在保留空间位置信息的前提下研究基因表达?空间转录组学的兴起解决了单细胞测序中丢失组织空间上下文的关键问题,使得研究者能够在原始组织背景下观察基因表达模式,从而更好地理解细胞与其微环境之间的相互作用关系。
2.2 研究动机与意义
转录组学方法在动脉粥样硬化研究中的应用具有重要的生物学和医学意义。通过这些技术,研究者可以识别驱动疾病进展的关键分子机制,发现新的生物标志物用于疾病的诊断、预后评估和监测,以及鉴定潜在的治疗靶点。特别是在精准医学时代背景下,对患者特异性转录组特征的分析可以为个体化治疗策略的制定提供依据。
第三节 主要公式与推导
3.1 qPCR中的基因表达定量
在定量PCR(qPCR)分析中,基因表达的定量基于荧光信号达到设定阈值的循环数,即量化周期(Quantification Cycle,Cq)。Cq值与初始模板量的关系可表示为:
其中 \(C_q^{std}\) 是标准曲线的截距,\(N_0\) 代表初始模板分子数。Cq值越低,表示初始模板量越高,因为需要更少的循环次数即可达到检测阈值。当比较不同样本间的基因表达水平时,采用\(\Delta\Delta C_q\)方法进行归一化处理:
这一计算方法可以消除样本间在RNA起始量、逆转录效率等方面的技术差异,使结果能够反映真实的生物学变化。
3.2 RNA-seq Reads Counts与表达量估计
在RNA测序数据分析中,原始测序数据首先经过质量控制和过滤,随后将reads比对到参考基因组或转录组。对于基因表达量的定量,最常用的方法是计算每个基因对应的reads counts数。假设对于基因\(g\),其在样本\(i\)中比对到的reads counts数为\(y_{gi}\),则可建立如下泊松或负二项分布模型:
其中 \(\mu_{gi}\) 是基因\(g\)在样本\(i\)中的表达均值,\(\phi_g\) 是基因\(g\)的离散度参数。基因表达量通常以每百万比对reads中每千碱基长度的reads数(FPKM)或每千碱基每百万比对reads数(TPM)表示:
其中 \(l_g\) 表示基因\(g\)的转录本长度。TPM的優勢在于所有样本的TPM值之和相等,便于样本间的比较分析。
3.3 单细胞RNA测序中的Dropout问题
单细胞RNA测序数据的一个显著特点是存在大量的零值(dropouts),即由于技术限制导致某些基因在某些细胞中未被检测到。这种现象可以用下面的混合模型来描述:
其中 \(\pi_c\) 表示由于技术原因导致基因未检测到的概率(dropout rate),\(f(0|\theta_{gc})\) 是考虑生物学变异后的零值概率。这一模型说明观察到的零值可能来自两个来源:一是技术性dropout,二是基因在该细胞中确实不表达。
3.4 RNA Velocity估计
RNA velocity是一种通过区分剪切(spliced)和未剪切(unspliced)mRNA来预测细胞未来状态的方法。设\(u_{gc}\)和\(s_{gc}\)分别表示基因\(g\)在细胞\(c\)中的未剪切和剪切mRNA数量,则RNA velocity定义为:
其中 \(\alpha_{gc}\) 是基因\(g\)在细胞\(c\)中的转录速率,\(\beta_{gc}\) 是mRNA降解速率。通过稳态假设,可以推导出未来表达水平的估计:
这一估计使得研究者能够推断单个细胞在转录组空间中的轨迹方向。
第四节 关键算法与建模方法
4.1 靶向转录组学方法
4.1.1 定量PCR(qPCR)
qPCR是转录组学研究中最经典和广泛使用的靶向方法之一。其核心原理是利用DNA聚合酶在每一轮扩增过程中监测荧光信号的增长。qPCR实验的关键步骤包括:高质量RNA的提取、特异性引物的设计、逆转录反应以及PCR扩增检测。引物设计需要遵循严格的标准:长度为18至25个核苷酸,GC含量介于40%至60%之间,熔解温度在60至65摄氏度且正反向引物间差异不超过2至3摄氏度,产物大小应在70至200碱基对范围内。为确保结果的可靠性,实验中需要包含适当的内参基因进行归一化,常用的内参基因包括GAPDH、18S rRNA和ACTB等。
4.1.2 微阵列技术
微阵列技术自1995年首次引入以来,一直是转录组学研究的重要工具。该技术利用芯片表面的固相cDNA探针与样本中标记的cDNA进行杂交,通过测量各点的荧光强度来定量基因表达水平。Affymetrix是其中最流行的平台之一,其特点是在杂交后才添加荧光染料,从而消除了染料效应。微阵列技术可以有效检测miRNA、mRNA和lncRNA等多种RNA类型,在动脉粥样硬化研究中已得到广泛应用。
4.1.3 靶向RNA测序
靶向RNA测序聚焦于特定基因或感兴趣区域,而非整个转录组。该方法主要采用两种策略:基于扩增子的方法和杂交捕获方法。基于扩增子的方法利用特异性引物对目标RNA区域进行扩增;杂交捕获方法则使用探针与目标序列进行杂交以实现富集。靶向RNA测序的优势包括:高灵敏度能够检测低丰度转录本,深度覆盖确保结果准确性,以及较低的数据分析复杂度。
4.2 非靶向转录组学方法
4.2.1 RNA测序(RNA-seq)
RNA-seq是当前转录组学研究的主流方法,能够提供整个转录组的全面视图。由于核糖体RNA占总RNA的80%至90%,在测序前需要进行富集处理以提高信息RNA的比例。两种主要的富集策略是poly(A)尾富集和核糖体RNA去除。Poly(A)尾富集利用oligo(dT)探针或磁珠捕获带有poly(A)尾的mRNA,适合研究蛋白质编码基因;核糖体RNA去除则使用特异性探针结合并去除rRNA,保留包括ncRNA在内的更广泛的RNA种类。
4.2.2 合成测序法(SBS)
Illumina平台的合成测序法是目前最广泛使用的测序技术。其核心原理是利用DNA聚合酶添加带有荧光标记的可逆终止子核苷酸,每一循环只能添加一个碱基,通过检测荧光信号确定碱基类型。paired-end测序是该平台的重要特征,能够从DNA片段的两端同时进行测序,生成成对的reads,这种设计显著提高了比对准确性并为后续的转录本组装提供了更好的支持。
测序流程包括以下关键步骤:文库制备(片段化、末端修复、接头连接)、流动池上样、桥式PCR扩增、簇生成以及循环测序。在数据处理方面,原始信号经过basecalling转化为核苷酸序列,随后进行质量控制、比对到参考基因组、定量分析等步骤。
4.2.3 直接RNA测序(DRS)
Oxford Nanopore Technologies的DRS技术能够直接测序天然RNA分子,无需经过逆转录步骤。这一特性使其能够保留RNA的化学修饰信息,如N6-甲基腺苷(m6A)等表观转录组修饰。DRS的工作原理是利用跨膜蛋白纳米孔,当RNA分子穿过纳米孔时,不同碱基会以独特的方式部分阻断电流,产生特征性的信号变化。测序过程中需要使用马达蛋白(解旋酶)控制RNA分子通过纳米孔的速度,确保信号的准确读取。
4.3 单细胞RNA测序
4.3.1 plate-based全转录本测序
SMART-seq2是这类方法的代表性技术。其流程包括:利用FACS或手动操作将单个细胞分离到多孔板中,细胞裂解后进行逆转录,过程中采用模板切换机制生成覆盖转录本全长的cDNA,随后进行cDNA扩增、标签化(tagmentation)和测序。该方法的优势在于能够捕获完整的转录本,适合研究可变剪接和转录本 isoform多样性。
4.3.2 droplet-based高通量测序
10x Genomics Chromium平台是droplet-based方法的典型代表。其核心是利用微流控技术将单个细胞与带有独特细胞条形码(cell barcode)和唯一分子标识符(UMI)的beads包裹在纳升级液滴中。细胞在液滴中裂解,释放的mRNA通过poly(T)引物与beads上的探针杂交,随后进行逆转录和测序。该方法能够在单次运行中处理数千个细胞,适合大规模细胞群体研究。
4.3.3 scRNA-seq数据分析流程
预处理阶段包括:比对到相应基因组、过滤低质量细胞、去除doublets和环境RNA污染(ambient RNA),以及数据标准化。常用的工具包括10x Genomics开发的Cell Ranger用于初步处理,Seurat和Scanpy用于后续分析。
聚类和注释阶段通常包括以下步骤:高度可变基因检测、维度降低(如PCA)、批次效应校正(可用Harmony、Seurat CCA/RPCA、scVI等工具)、聚类(Leiden或Louvain算法)、可视化(t-SNE或UMAP)以及细胞类型注释。注释方法分为手动注释和自动注释两大类。
下游分析则进一步分为基因水平和细胞水平两个层面。基因水平分析包括差异表达分析、功能富集分析(GO/KEGG/GSEA)和转录因子识别。细胞水平分析包括细胞间通讯研究(CellPhoneDB、CellChat、NicheNet等工具)和细胞轨迹分析(Monocle3、Slingshot、Velocyto/scVelo、CellRank 2等工具)。
4.4 空间转录组学
空间转录组学方法可大致分为靶向和非靶向两类。靶向方法包括:smFISH、MERFISH、seqFISH+等,这些方法能够以单分子精度检测特定RNA分子,但通量受限;GeoMx DSP则允许对特定组织区域进行转录组分析。非靶向方法的代表是10x Genomics Visium,该技术利用空间条形码在组织切片上进行转录组测序,能够在全转录组水平上保留空间信息,但目前尚无法达到单细胞分辨率。
空间条形码方法是近年来发展最迅速的技术方向。这类方法与3'端scRNA-seq类似,使用相同的 amplification handles、barcodes、UMIs和poly-T引物,但每个液滴拥有独立barcode的设计被替换为每个阵列点具有唯一barcode。10x Genomics Visium HD是该领域的最新进展,采用2微米直径的spots(相比原始Visium的55微米有显著提升),理论上可以接近单细胞分辨率。
第五节 主要结论
5.1 转录组学方法的整体框架
本章系统性地梳理了转录组学方法的完整体系,明确区分了靶向方法和非靶向方法两大类别。靶向方法如qPCR、微阵列和靶向RNA测序适用于研究预先设定的特定基因或通路,具有灵敏度高、成本相对较低、数据分析简单的优势,但无法发现新的转录本或未知调控关系。非靶向方法如全转录组测序能够提供全面的转录组视图,支持新转录本发现和探索性研究,但成本较高且数据分析复杂。
5.2 各方法在动脉粥样硬化研究中的应用
qPCR仍然是验证候选基因表达的金标准方法,在动脉粥样硬化研究中广泛应用于生物标志物的验证工作。微阵列技术虽然逐步被RNA-seq取代,但在特定应用场景下仍具有价值,特别是在已有大量历史数据集可供比较分析的情况下。靶向RNA测序凭借其高灵敏度和高深度覆盖,特别适合研究低丰度转录本或需要精确量化的场景。
5.3 单细胞和空间转录组学的突破性贡献
单细胞RNA测序的引入彻底改变了我们对动脉粥样硬化斑块复杂性的认识。该技术揭示了斑块中存在的多种细胞类型和亚群,包括平滑肌细胞的表型转换(向成骨软骨细胞样、纤维肌细胞样、泡沫细胞样和干细胞样状态转变)以及巨噬细胞的五个主要亚群(驻留样、炎症性、泡沫样/TREM2高、增殖性和干扰素诱导性)。这些发现为理解动脉粥样硬化的细胞机制提供了前所未有的分辨率。
空间转录组学则进一步解决了单细胞测序中丢失空间位置信息的关键问题。通过保留组织空间上下文,该技术使得研究者能够将基因表达模式与特定解剖区域(如斑块易损区域)相联系,为理解动脉粥样硬化的异质性和并发症提供了重要见解。
5.4 细胞类型解卷积分析的价值
bulk RNA-seq的成本效益使其在大规模研究中仍然不可或缺,而基于scRNA-seq参考图谱的计算解卷积方法能够从bulk数据中推断细胞组成,为整合两种方法的优势提供了桥梁。
第六节 挑战与开放问题
6.1 技术层面的挑战
单细胞RNA测序面临的首要挑战是技术变异性高,包括批次效应、细胞捕获效率差异、测序深度不均等问题。此外,依赖于poly(A)尾捕获的方法天然无法检测非polyadenylated的lncRNA,导致转录组覆盖不完整。在动脉粥样硬化研究中,斑块组织的处理尤为困难——致密的细胞外基质和钙化结构使得获得高质量的单细胞悬液充满挑战。
空间转录组学领域同样面临分辨率与通量之间的权衡问题。现有的空间条形码方法(如Visium)虽然提供了全转录组覆盖,但尚无法达到真正的单细胞分辨率;而高分辨率成像方法(如MERFISH、seqFISH+)虽然能够检测单分子水平的目标RNA,但通量受限于预设的基因panel。此外,DRS技术的错误率虽然已在改善,但仍然显著高于短读长测序技术,且数据分析流程尚未标准化。
6.2 生物学层面的挑战
即使采用最先进的单细胞和空间转录组学技术,我们对动脉粥样硬化复杂细胞生态系统的理解仍然有限。虽然scRNA-seq已经鉴定出多种细胞状态和亚群,但建立这些细胞状态与疾病表型之间的因果关系仍然困难,需要功能验证实验(如基因敲低、敲除或过表达)的支持。
另一个重要挑战是时间维度的把握。转录组数据提供的是特定时刻的静态快照,而动脉粥样硬化是一个随时间演变的动态过程。虽然RNA velocity等计算方法可以预测细胞状态的转变方向,但准确重建疾病发展的时间序列仍然需要纵向采样的实验设计。
6.3 整合分析方面的挑战
如何有效整合多种组学数据(如scRNA-seq、bulk RNA-seq、表观基因组学、蛋白质组学等)以获得对疾病机制的全面理解,仍然是一个活跃的研究领域。此外,将转录组学发现与遗传学数据(如GWAS)进行整合,以识别因果基因和理解变异功能,同样面临方法学上的挑战。
6.4 临床转化方面的挑战
将转录组学发现从实验室转化为临床应用需要克服多重障碍:样本收集的标准化、结果的可重复性、检测的成本效益、以及与现有临床流程的整合等。特别是在动脉粥样硬化研究中,晚期斑块样本的获取本身就充满挑战,而早期检测生物标志物的发现则需要大队列纵向研究的支撑。
第七节 个人思考与批判性分析
7.1 对方法选择策略的思考
本章最显著的特点之一是系统性地对比了各种转录组学方法的优缺点,为研究者提供了清晰的方法选择指南。在我看来,这种对比分析对于实验设计阶段至关重要——没有一种方法能够同时满足所有研究需求,研究者必须根据具体的研究问题和资源限制做出权衡。
对于假设驱动的验证性研究,qPCR和靶向RNA测序仍然是首选,其高灵敏度和较低的数据分析复杂度使得结果解释相对直接。对于探索性研究,全转录组测序能够提供最大的发现潜力,但也意味着更高的成本和更复杂的数据分析流程。在实际研究中,采用多种方法的组合策略往往是明智的选择——例如先通过bulk RNA-seq或scRNA-seq筛选差异表达基因或细胞亚群,再通过qPCR在独立队列中进行验证。
7.2 对动脉粥样硬化研究特殊性的思考
本章专门讨论了scRNA-seq和空间转录组学在动脉粥样硬化研究中的应用,揭示了该研究领域的一些独特挑战。一方面,斑块组织的异质性和复杂性使得细胞类型的注释尤其困难——斑块中存在的多种细胞状态(如SMC的表型转换)有时难以与传统分类系统对应。另一方面,空间转录组学的应用为我们理解斑块的空间异质性(如易损区域与稳定区域的差异)提供了独特视角。
值得注意的是,本章引用了多个共识论文和meta分析来辅助细胞类型的注释,这反映了该领域对标准化的持续努力。CellMarker 2.0和PanglaoDB等数据库的建设为研究者提供了宝贵的参考资源。
7.3 对技术发展趋势的思考
从本章的论述可以看出,转录组学技术正在朝着更高的分辨率、更大的通量和更全面的覆盖方向发展。Visium HD的空间分辨率提升到2微米是一个重要里程碑,理论上已接近单细胞水平。同样值得关注的是DRS技术在表观转录组修饰检测方面的独特优势,这可能是未来研究的一个热点方向。
然而,技术的发展也带来了数据分析的瓶颈——随着数据规模和复杂性的增加,如何标准化分析流程、确保结果可重复性、以及从海量数据中提取有意义的生物学见解,都是亟待解决的问题。本章提到的FIMICS panel(3000个在心力衰竭中调控的lncRNA)提示了生物标志物发现从bulk到空间尺度的延伸可能是未来的重要应用方向。
7.4 对学科交叉的思考
本章内容涉及分子生物学、细胞生物学、生物化学、计算生物学和生物信息学等多个学科的交叉。这种学科交叉性正是现代生命科学研究的典型特征,也对研究者提出了更高的要求——不仅需要理解实验技术的原理和局限性,还需要掌握数据分析的基本方法和工具。在团队研究模式下,湿实验和干实验研究者的紧密合作变得尤为重要。
7.5 对阅读本书的总体评价
作为转录组学方法学的系统性综述,本章为理解动脉粥样硬化研究中的各种技术工具提供了坚实的理论基础。章节安排逻辑清晰,从经典方法逐步过渡到前沿技术,使读者能够建立完整的知识框架。同时,书中大量的表格(如靶向vs非靶向方法的对比表、各种scRNA-seq分析工具的总结等)为快速参考提供了便利。
对于未来深入学习特定方法或开展相关实验的研究者而言,本章可以作为理想的起点。书中提供的参考文献为深入了解各技术细节和应用案例提供了充分的支持。
公式汇总
| 编号 | 名称 | 形式 | 物理意义 | 类型 |
|---|---|---|---|---|
| (8.1) | Cq值与初始模板量关系 | \(C_q = C_q^{std} - \log_2(N_0)\) | 描述Cq值与初始模板分子数的负对数关系 | (E) |
| (8.2) | 双ΔCt方法 | \(\Delta\Delta C_q = (C_q^{目标} - C_q^{内参})_{样本1} - (C_q^{目标} - C_q^{内参})_{样本2}\) | 消除技术变异后的基因表达差异比较 | (E) |
| (8.3) | 负二项分布模型 | \(y_{gi} \sim NB(\mu_{gi}, \phi_g)\) | 描述RNA-seq counts数据的技术变异 | (T) |
| (8.4) | TPM计算 | \(TPM_g = \frac{y_g / l_g}{\sum_{h}(y_h / l_h)} \times 10^6\) | 标准化的基因表达量指标 | (T) |
| (8.5) | Dropout混合模型 | \(P(y_{gc} = 0) = \pi_c + (1 - \pi_c) \cdot f(0\|\theta_{gc})\) | 区分技术性和生物学零值 | (T) |
| (8.6) | RNA Velocity模型 | \(\frac{ds_{gc}}{dt} = \alpha_{gc} - \beta_{gc} s_{gc}\) | 描述mRNA转录和降解的动态平衡 | (T) |
注:(T)=理论推导,(E)=经验公式
参考来源:Stopa V, Sopcic M, Li G, Sluimer J, Basilio J, van der Laan SW, Kreil DP, Devaux Y, Hochreiter B. Essentials of transcriptomic methods: Navigating through RNA sequencing and beyond. In: Devaux Y, editor. Transcriptomics in Atherosclerosis. Elsevier; 2026. p. 131-172.