第 13 章：血管病理学中的基因调控网络洞察（Insights into gene regulatory networks in vascular pathology）

引言（Introduction）

基因调控网络（GRN）在维持血管稳态、协调病理刺激下的细胞反应中起核心作用，其失调与动脉粥样硬化、高血压、动脉瘤等血管疾病密切相关，疾病的发生常是环境与遗传因素共同作用的结果。次世代测序（NGS）的出现使全基因组快速、低成本测序成为可能，由此推动了全基因组关联研究（GWAS）、转录组学与表观遗传分析的快速发展，进而使血管疾病等复杂疾病的 GRN 研究获得前所未有的工具与方法支撑。近年来 GRN 推断方法的进展带来了多种揭示复杂因果互作的途径：相关综述概述了 GRN 的基础概念、方法一致性、集成策略及临床应用前景，强调其对个体化医学的重要性；与之并行，概率图模型已被证实能够以简洁有效的框架表征高通量分子实验所衍生的复杂细胞网络；统计与机器学习方法的发展也使大规模转录组数据驱动的 GRN 重构成为可能，提升了基因选择策略，同时应对了新兴转录组学应用带来的挑战。然而一个核心难题仍未被解决——大多数现有方法无法同时兼顾网络稀疏性与非线性依赖这两项关键的 GRN 性质。本章围绕 GRN 在血管生物学中的角色展开：先强调其在维持血管稳态与响应病理刺激中的意义，再说明 NGS 如何革新 GRN 研究并带来更深层次的调控机制洞察；随后系统讨论 GRN 推断的不同计算路径——基于相关性的方法、贝叶斯网络、布尔模型、微分方程模型与机器学习技术；最后介绍功能注释、通路分析以及多组学整合工具，将其作为理解 GRN 在血管疾病中生物学意义的关键环节。

调控网络推断模型——基于相关性的方法（Correlation-based approaches）

GRN 研究已从主要依赖实验室生化与遗传实验结论的范式，转向高通量数据的整合分析。在此情境下，能降低数据维度与复杂度的工具对概括数据、评估共表达基因之间的共享生物功能以及揭示多组学实验不同层级数据之间的联系非常有用——共表达基因倾向于参与相似的生物学功能与通路，这也是经典的基因表达数据成对平均连锁聚类分析所揭示的现象。网络是节点（如一个转录因子）与边（变量间的连接，例如对转录因子靶基因的调控效应）所构成的图形表示。本节介绍两种已被广泛使用、在跨组织与跨物种的全基因组调控模块研究中贡献卓著的方法。

传统上，研究者通过设定相关性强度阈值来定义网络并寻找功能性基因组簇，但这种方法依赖阈值的任意选择，可能造成信息损失，且未考虑表达数据的连续性。此类硬阈值式网络构建亦称为无加权基因共表达网络。Steve Horvath 等人提出了加权基因相关网络：基因连接取 0 到 1 之间的连续值。配对相关性度量经"软阈值"（soft threshold）的幂次变换，最优软阈值的选择需要在网络的无标度拓扑近似与平均模块内连接度保留之间寻求折中。这一方法被发现能构建比无加权网络更稳健的网络结构，并被实现在 R 中以 WGCNA（Weighted Gene Co-Expression Network Analysis，加权基因共表达网络分析）包形式提供。WGCNA 可作为降维技术，以模块化方式概括表达信息，所提取的"特征基因"（eigengenes）可作为多块整合的输入：首先通过配对相关系数量化基因间相似度，并可选定无符号网络或符号网络——无符号网络存贮相关系数绝对值，使反相关的两基因仍相连；符号网络则将反相关的相似度设为零；接着对相关性矩阵做基于软阈值的邻接计算，使用拓扑重叠度量（TOM）与无监督层次聚类将基因分组为模块，每个模块可设置最小特征数；模块可与复杂疾病性状相关联以研究分子机制，还可借助共识模块的构建与模块保留性的估计，评估网络在平台、实验、条件乃至物种间的保守程度。WGCNA 最初为微阵列数据设计，现已被应用于脑成像指标、代谢物与蛋白质等多种数据源；通过整合模块特征基因与机器学习技术，可用于分类与预测任务，并将模块与不同病理条件下的表型做关联。WGCNA 在心衰研究中曾识别出两个候选驱动基因 CUX1 与 ASB1，并暗示 MAPK 与 PI3K-AKT 信号通路的潜在参与；在冠心病（CAD）的跨物种 GRN 比较中，研究者结合表达数量性状基因座（eQTL）与 GWAS 知识，发现 JAK-STAT 信号通路与胆固醇生物合成通路在物种间与组织间共享，而支链氨基酸分解代谢与 RXR/VDR 信号通路则为人与小鼠血管组织所特有，其中 ZHX2 被识别为关键驱动基因之一；另一些机制（如主动脉中的胰岛素信号）则只在小鼠中显现。

多尺度嵌入式基因共表达网络分析（MEGENA）是一种基于相关性的 R 实现框架，其起点是计算所有基因跨样本的成对相关性（例如 Pearson 相关系数），由此生成相似性矩阵；接着施加统计过滤（如控制错误发现率，FDR）以仅保留相关性具有统计学意义的基因对。在过滤之后，MEGENA 构建所谓"平面过滤网络"（Planar Filtered Network, PFN）：算法从一个空图开始迭代添加最强且显著的基因-基因关联作为边，但仅在该网络仍保持平面性——即所有边可在二维平面内不交叉绘制——时接受该边，由此保证网络保持稀疏并聚焦于最有意义的关联。PFN 建立后，MEGENA 进行多尺度聚类分析以识别网络内的层级嵌套基因模块，聚类由聚类紧密度（常用节点间最短路径距离评估）与整体模块度驱动；通过调整分辨率参数，该方法可同时揭示宽尺度模块与更细的子模块，从而展现基因表达数据固有的层级组织。最后一步，MEGENA 通过评估基因在网络内的连接度识别关键枢纽基因，并通过进一步的关联分析将这些枢纽或模块与临床或表型性状联系。在一项 CAD 跨物种多组学研究中，研究者使用 WGCNA 与 MEGENA 从混合小鼠多样性小组（HMDP）小鼠与 GTEx 人体样本的肝脏与血管转录组重构组织特异的共表达网络，发现超过 75% 的 CAD 因果通路在人与小鼠间保守，并借助单细胞数据与近期 CAD GWAS 识别出关键调控基因。在一项阿尔茨海默病（AD）研究中，研究者对 AD 与对照脑组织的血管细胞进行单核 RNA 测序，揭示 AD 的特征是血管-脑屏障（BBB）完整性受损、血管生成功能障碍、炎症激活与内皮细胞病理，并通过 MEGENA 为内皮细胞、成纤维细胞与周细胞构建基因共表达网络，识别出富集于 TGF-β、EGFR、Notch 与白细胞介素/NFκB 等通路的模块，且这些模块与 AD 差异基因表达存在相关性。

调控网络推断模型——贝叶斯网络（Bayesian networks）

贝叶斯定理基于在观测数据条件下的事件条件概率分布，生物系统学已从贝叶斯统计学获得显著助益——后者提供了对特征相互依赖进行图形建模的框架，可用于检验研究假设、识别潜在因果关系或预测结局。在贝叶斯网络中，节点可为连续、离散或类别来源，通过有向无环图（DAG）中的边相互连接；当数据为连续型时，条件独立性基于偏相关系数（即在控制第三个变量条件下两个变量间的相关性）。贝叶斯网络能够整合来自多种遗传与生化技术（评估遗传互作、基因调控、信号通路与蛋白质-蛋白质相互作用，PPI）的先验知识。bnlearn 是一套在 R 中实现的算法与方法集合，提供网络结构与参数学习、基于自助法或贝叶斯因子的连接强度估计、以及预测等多种选项，曾被用于研究来自微阵列的复杂基因互作。利用 bnlearn，源自胰岛素抵抗的心血管风险得以建模，结果显示 TyG 指数升高可预测心血管疾病（CVD），并检测出血管疾病等共病之间的协同效应，展示了这一工具的实用性。

调控网络推断模型——布尔网络（Boolean networks）

布尔网络（BNet）已成为研究与心衰、高血压、动脉粥样硬化等心血管疾病相关的 GRN 的强大计算模型：这些模型将基因互作简化为二态（开/关），同时捕捉复杂的调控机制，因此在疾病进展预测与潜在治疗靶点识别中特别有价值。Stuart Kauffman 的开创性工作引入了 BNet：将每个基因表示为一个二元节点（"开"或"关"），其状态由作用于随机选取的输入基因的布尔函数决定；该方法不仅通过同步更新捕捉基因表达的动态演化，还能揭示可被解释为稳定细胞类型的"吸引子"，并凸显"在混沌边缘"运行的理念——在秩序与适应性之间取得平衡。BNet 通过二元的开关式互作为建模与分析复杂系统提供了框架：每个节点的逻辑函数依据其他节点的输入确定其在下一时间步的状态；概率布尔网络（PBN）通过允许多种转移拓展了这一概念，应对基因状态向量按网络规则在每一时间点演化的不确定性；与贝叶斯网络类似，BNet 也可用于构建蛋白质调控网络。

对希望深入探索这些模型的研究者而言，BoolNet（提供 BNet 的生成、模拟与分析的综合工具）与 CellNOptR（支持数据驱动的细胞信号网络逻辑建模）等 R 包提供了基于布尔框架研究 GRN 的丰富资源。BoolNet 专为 BNet 的建模、模拟与分析设计——这一框架特别适合表示 GRN；它使研究者能够构建随机与数据驱动的网络、模拟其动态行为、并识别关键特征（如对应稳定基因表达模式的吸引子）；凭借网络扰动与状态空间转移可视化能力，BoolNet 为理解涌现自简单二元互作的复杂适应性调控机制提供了深入洞察，是系统生物学中流行的工具。CellNOptR 基于实验数据（特别是 NGS 实验）构建并分析布尔模型，特别适用于 GRN 与细胞信号通路研究：通过整合 NGS 实验数据，CellNOptR 可构建表示细胞过程的逻辑模型，包含模型拟合、模拟与优化工具，使用户能够生成捕获生物系统复杂关系的数据驱动 BNet；它架起实验数据与计算建模之间的桥梁，通过先验知识网络与基于逻辑的建模（同时运用布尔与模糊逻辑）构建并精化动态模型，使其能镜像真实生物过程；通过针对实验扰动数据的模拟与优化，CellNOptR 支持对调控互作的研究以及对信号通路稳健性的评估；这一数据与建模的整合不仅增进对细胞通信机制的理解，也支持开发用于系统生物学治疗干预的预测框架。

另一构建 BNet 的工具是 CABERNET：一个用于创建并分析 GRN 增强布尔模型的 Cytoscape 应用，支持通过随机集合生成网络、导入或增强现有 GRN、模拟网络动力学以探索吸引子景观、基于分化树选择网络、通过扰动分析评估稳健性、分析网络属性，并利用 Cytoscape 的可视化工具展示拓扑与动力学特征。BNet 方法理解血管病理学背后复杂 GRN 的能力已被多项研究证实：Stobdan 等人使用应用于大规模表达数据的布尔蕴涵方法，借助 VEGFA 的已知作用识别出新的缺氧响应基因 FAM114A1，并通过在低氧条件下内皮细胞中的上调加以验证；Ghasemi 等人将反应-扩散、Potts 细胞与随机计算流体动力学模拟相结合的多尺度建模与 BNet 结合，捕捉了肿瘤血管生成过程中内皮细胞的胞内动力学，强调脉动性血压在管腔形成中的作用；Weinstein 等人运用 BNet 模拟内皮细胞激活与内皮-间充质转化（EndMT），揭示 EndMT 同时受细胞外条件（如缺乏 VEGFA 与充足的氧）与特定胞内信号（包括 FLI1 与 GATA2 的抑制）的调控。

调控网络推断模型——微分方程模型（Differential equation models）

微分方程模型是分析 GRN 的基石，为捕捉基因表达与蛋白质相互作用的动态关系提供了定量框架。在这些模型中，每个基因或蛋白质由一个变量表示，其浓度随时间按常微分方程（ODE）变化，形如 dX/dt = f(X, P)，其中 X 为浓度向量，P 包含产生与降解速率等参数，f 封装调控函数（常使用 Hill 方程等非线性函数）。例如，一个基因受另一蛋白抑制的表达动力学可表示为 dX/dt = β/(1 + (Y/K)^n) − γX，其中 β 为最大生成速率、γ 为降解速率、Y 为抑制子浓度、K 为解离常数、n 为反映协同性的 Hill 系数。由于系统固有的非线性，解析解通常不可获得，必须依赖数值积分技术；简单的 Euler 法可被使用，而 Runge-Kutta 系列（如 RK4）以及刚性问题求解器（如向后差分公式，BDF）更常被用于呈现快速变化或多时间尺度的系统。除模拟外，参数估计对将模型与实验数据对齐至关重要——通常通过定义目标函数（常基于最小化模拟与观测基因表达水平的最小二乘差异），再使用梯度下降、Levenberg-Marquardt 算法或模拟退火、遗传算法等随机方法进行迭代调整。在模拟动态轨迹之外，这些模型还支持对系统行为的综合分析：稳定性分析（通过在稳态附近用 Jacobian 矩阵线性化系统）可判断扰动是衰减还是放大；敏感性分析识别对动态影响最大的参数；分岔分析则探索参数渐进变化如何引发系统行为的质变——如从单一稳定状态到多重稳定状态的跃迁或振荡动力学的出现。当转录与翻译等固有延迟起关键作用时，时滞微分方程（DDE）提供更细致的建模；分子数较低时，Gillespie 算法等随机模型则可捕捉生化反应的内禀随机性。整体而言，微分方程与数值模拟、参数优化、动态分析的整合提供了稳健的 GRN 建模框架；这一多面途径不仅促进对已知调控互作的模拟，还有助于发现新的基因调控机制，深化对细胞动力学的理解。

ODE 模型已被广泛用于解码 GRN 的复杂动力学，提供捕捉生物互作的连续且可适应的框架。一种方法将柔性神经树嵌入到非线性 ODE 模型中：多表达式编程演化树结构，脑暴优化算法精化参数；包含稀疏性、最小冗余最大相关性项的特别设计的适应度函数进一步降低假阳性，这一途径在 DREAM 挑战基准与 E. coli 数据集上展示了改进的网络推断性能。另一案例将单指标 ODE 模型与基于平滑裁剪绝对偏差惩罚的变量选择过程耦合：通过平滑样条聚类将基因分组到功能模块，并使用基于惩罚样条的非参数混合效应模型估计状态函数及其导数，该方法在酵母细胞周期基因表达数据上获得更优拟合，并成功识别出线性模型可能遗漏的网络互作。微分方程模型也已用于捕捉血管病理学涉及 GRN 的动态行为：ADAPT 方法将时序代谢组与转录组数据通过机器学习增强的微分方程框架整合，估计代谢参数的时序轨迹，预测 LXR 激动剂诱导的肝脂肪变性主要源于游离脂肪酸流入增加而非脂肪生成增强；另一 ODE 整合模型被开发用于模拟调控肌球蛋白轻链（MLC）激活（影响内皮通透性）的凝血酶、组胺与 VEGF 信号通路，在实验数据验证后，该模型还预测 CPI-17 过表达及凝血酶与 VEGF 在低水平下的协同作用可能加剧 MLC 激活，对炎症、糖尿病与癌症转移等病症具有潜在意义。

R 中已发展出多个求解微分方程的专门工具。deSolve 包提供 ODE、DDE 与偏微分方程（PDE）的稳健求解器；与 deSolve 互补，Flexible Modeling Environment（FME）包支持参数估计、敏感性分析与模型标定，使模型参数能针对实验数据精细调整；此外，simecol 包虽最初面向生态学模拟设计，但已被证明在探索生物系统的非线性动力学与稳定性方面具有通用价值。这些 R 工具共同简化了 GRN 微分方程模型的实施与求解，并通过与 Bioconductor 生态系统中高通量数据分析工具的整合增强了对生物学假设的检验能力。

调控网络推断模型——机器学习方法（Machine learning approaches）

GENIE3、GRNBoost2 与 dynGENIE3 等机器学习方法利用随机森林（一种集成学习形式，能高效捕捉基因间非线性互作）的力量，彻底改变了研究者从高维表达数据推断 GRN 的方式。这些方法既适用于单细胞也适用于批量 RNA-seq 数据集，可用于发育生物学到疾病病理学的广泛生物学问题。GENIE3、GRNBoost2 与 dynGENIE3 的核心算法建立在基于树的集成方法之上，利用随机森林从复杂表达数据推断 GRN：在原始 GENIE3 框架中，网络推断问题被分解为一系列回归任务——对每个目标基因，使用随机森林评估潜在调控因子的重要性，由此量化调控互作的强度；GRNBoost2 通过引入梯度提升机拓展了这一概念，既保留了捕捉非线性关系的能力，又提升了可扩展性与计算效率，特别适合高维单细胞 RNA-seq 数据集；dynGENIE3 通过将时滞预测因子整合进随机森林框架，将 GENIE3 拓展为适应时序数据，使调控互作的动态建模成为可能——能够捕捉时间变化与静态方法可能忽略的因果关系。综合而言，这些方法展现了基于树的方法在处理基因表达数据复杂性方面的通用性与稳健性。

GENIE3 方法实现在 GENIE3 与 SCENIC（Single-Cell rEgulatory Network Inference and Clustering）R 包中，可在 Bioconductor 获取；GRNBoost2 主要实现在 pySCENIC——一个用于 SCENIC R 包的基于 Python 的包；dynGENIE3 则是 GENIE3 的动态推断拓展，实现在 dynUGENE R 包中。SCENIC 已被广泛用于在不同生物学背景下构建 GRN：在后肢卸载诱导的血管重塑研究中，SCENIC 被用于预测影响动脉变化的重要转录因子（TF），揭示参与细胞外基质重塑与炎症的关键调控因子；在椎间盘退变（IDD）中，SCENIC 分析识别出 Sox9 与 Id1 为祖细胞样细胞中的关键调控因子，而 Nr2f2 与 Creb5 与血管化相关；在脑血管发育中，SCENIC 支持构建小鼠脑血管的 GRN，识别内皮细胞中的 TF 如 Lmo2。此外，GENIE3 在一项罗非鱼研究中通过突出调控心血管通路的关键标志基因，促进了高温应激下心脏响应机制背后的基因互作识别。

调控网络推断模型——基于互信息的方法（Mutual information-based）

基于互信息（信息论）的方法是一类调控网络推断方法，利用互信息（MI）捕捉基因表达谱之间线性与非线性两类依赖；与仅衡量线性关联的相关性方法不同，MI 量化两个变量之间共享的信息量，因而是识别基因-基因互作的更灵活与强大的工具。其中应用最广泛的 MI 方法是 ARACNe（Algorithm for the Reconstruction of Accurate Cellular Networks，精确细胞网络重构算法）。ARACNe 应用数据处理不等式（DPI）消除间接连接，专门设计用于通过识别直接转录互作来重构 GRN；它使用自助法框架增强稳健性，并以自适应 DPI 精化网络拓扑。在 R 中，ARACNe-AP（加速版 ARACNe）作为 RTN 包的一部分提供，为网络推断、自助法与可视化提供用户友好的流水线，使研究者能高效推断 GRN 并将其与主调控因子分析等下游分析整合。ARACNe 算法已被广泛用于不同疾病的 GRN 推断：在 EMP2 诱导的血管增殖性疾病中，ARACNe 被用于从差异表达基因（DEG）构建转录调控网络并识别主调控因子，结果显示 PDGFA、ALDH1L2、BAIAP3、ANGPT1 与 ST3GAL5 为低氧条件下的关键调控因子，可能参与糖尿病视网膜病变；在结直肠癌（CRC）中，ARACNe 与 PPI 网络联合用于研究肿瘤-微环境互作，揭示肿瘤分泌蛋白与邻近黏膜受体的串扰，包括肿瘤中 Slit-ROBO 通路的激活与邻近组织中 AP-1 的激活，提示 CRC 的潜在治疗靶点。

功能注释与通路分析（Functional annotation and pathway analysis）

在 GRN 内调控互作被识别后，功能富集分析有助于解释其生物学意义，使研究者能将基因表达变化与特定生物过程、分子功能、细胞组分及信号通路联系起来，为血管生物学中的疾病机制与潜在治疗干预提供洞察。基因本体（GO）与京都基因与基因组百科全书（KEGG）通路富集分析被广泛用于评估 DEG 的功能相关性：GO 富集将基因按生物过程、分子功能与细胞组分分类到层级类别中，KEGG 通路分析将基因映射到策划的信号与代谢通路上。g:Profiler 与 clusterProfiler 等工具通过统计评估过度表示的功能术语与通路促进这些分析。TF 基序富集分析识别启动子与增强子中可能被 TF 结合的调控元件，从而提供基因调控洞察；HOMER 与 MEME Suite 常被用于检测给定 DEG 集合或开放染色质区域中的过度表示基序。疾病关联数据库帮助将基因表达特征与已知疾病表型连接，促进转化研究；DisGeNET 与 Open Targets 整合文献、GWAS 与临床来源数据，将基因与疾病条件关联。药物-GRN 互作对识别血管疾病的潜在药理学干预至关重要；Connectivity Map（CMap）与 DrugBank 使研究者能够探索小分子如何调控基因表达谱与调控网络。在一项近期研究中，CMap 被用于基于新型的 QUIZ-C（Quantile-based Instance Z-score Consensus）方法构建细胞类型特异的基因-药物扰动网络，并与疾病表型与化学信息学数据整合，系统地优先级排序并重定位药物；在另一项研究中，CMap 分析与肺动脉平滑肌细胞的 RNA 测序及功能富集相结合，被用于识别 Aurora 激酶 B（AURKB）作为肺动脉高压（PAH）有前景的治疗靶点——其证据为 AURKB 抑制可逆转疾病相关基因特征、阻止细胞周期进程并改善肺血管重塑。综上所述，功能注释与通路分析为血管生物学与病理学的分子机制提供了核心洞察：GO 与 KEGG 富集分析促进识别失调通路，TF 基序富集突出关键调控因子，疾病关联数据库建立基因表达变化与血管疾病的联系，药物-GRN 互作分析提供治疗干预机会；这些方法的整合可形成对血管疾病的系统级理解，助力生物标志物发现与药物重定位。

多组学数据整合——多组学网络整合工具（Integration of multiomics data — multiomics network integration tools）

整合多样化组学数据集已成为破解细胞功能与疾病状态背后复杂调控图景的关键，多种先进工具利用不同类型数据构建并可视化 GRN，同时识别关键 TF 及其靶互作。多组学机器学习模型有潜力通过整合基因、影像与临床数据改进疾病评估与风险分层，从而实现更精确的诊断。

MOFA+（多组学因子分析）（MOFA+ (multiomics factor analysis)）

多组学因子分析（MOFA）是一种以无监督方式建模跨多组学层级主要变化来源的计算工具，作为 PCA 在多组学应用上的广义拓展。该方法学习归因于生物学与技术变异的隐因子，允许识别样本聚类与潜在疾病驱动因素，例如急性与慢性冠脉综合征中免疫基因特征的发现即为其例。以样本配对的多组学数据矩阵为起点，MOFA 计算跨数据块驱动变化源的低维表示；为增强推断稳健性并减少计算时间，MOFA 推荐基于统计检验或特征跨样本的方差估计预先选择特征；MOFA 还要求适当的数据归一化，可处理三类数据：Gaussian、Poisson 与 Bernoulli 似然。存储在 MOFA 对象中的数据可按样本组或数据块进行缩放。在训练模型前，可设置进一步参数，特别是每个块的分布类型、要提取的因子数与训练的迭代次数。MOFA 结果可指导 GRN 的构建，例如对驱动神经元身份发育的转录调控模块的评估即为例证。MOFA 的近期版本可整合单细胞多组学数据，考虑细胞间的分组关系，该方法拓展最近被实现在 MOFAcellulaR 包中，支持跨条件单细胞数据集的分析。单细胞分辨率的多组学模型是细胞特异或细胞间 GRN 的宝贵来源，能映射细胞空间信息、加深我们对 CVD 等复杂表型的理解。

关键通路挖掘器（Key pathway miner）

为克服单一"组学"分析（如仅 RNA 测序或蛋白质组学）的局限，Key Pathway Miner（KPM）是一种依赖基于图的方法在 PPI 网络、GRN 或代谢通路中寻找最优子网络的计算方法。它整合基因表达、突变或蛋白质组学数据，帮助识别给定表型涉及的关键生物过程。用户按四步引导完成分析设置，其中基因被视为"活动"——例如差异表达——在除 L 个样本（病例、细胞系或患者）之外的所有样本中；同时参数 K 调整解中允许的非活动基因（例外、背景）数量。基于 RNA 测序或蛋白质组学的差异表达分析，可使用不同方法生成指示矩阵：列对应病例、行对应基因，每个表项对活动与不活动的病例-基因组合编码"1"或"0"。生成此类指示矩阵的一种方法是将个体表达异质性转化为预测信息——构建反映单一受试者内表达变化的个性化扰动谱：对受试者 j 的每个基因 i，其表达水平 l_{ij} 与该基因在对照组内的参考表达水平分布比较，偏差由 z-score Z_{ij} = (l_{ij} − mean_control) / σ_control 测量，捕捉个体表达水平相对于对照群体（如健康群体）均值偏离的标准差倍数；由此可识别在单个受试者中被充分扰动的基因，所得个体扰动表达谱可被转化为指示矩阵，其中基因与对照组相比上调（Z_{ij} ≥ 0）或下调（Z_{ij} ≤ 0）。生成指示矩阵的另一可能途径基于 DEG；源自不同组学的指示矩阵可使用逻辑运算符连接。该工具存在于不同计算环境（R 包、基于 Web 的版本、Cytoscape 应用）。

multiGSEA

基因集富集分析（GSEA）是广泛用于判断预定义基因集在不同生物学条件下是否显著富集的方法。multiGSEA 是为多组学通路富集分析设计的强大工具，将传统 GSEA 拓展为整合转录组学、蛋白质组学与代谢组学数据。通过查询八个通路数据库，它对每个组学层级分别执行 GSEA，然后将得分合并以创建稳健的复合富集度量。该工具支持 11 种生物并提供转录本、蛋白质与代谢物的全面映射，克服了既往在组学层级选择与通路数据库可用性方面的局限；该包在 Bioconductor 公开可得，为多组学数据整合提供灵活而系统的方法以获取更深入的生物学洞察。

其他调控网络分析工具（Other regulatory network analysis tools）

Cytoscape 是一个被广泛采用的开源平台，便于网络可视化与分析，使研究者能够通过整合基因表达、PPI 与调控关系等多种组学数据集来映射并交互式探索复杂生物网络；其灵活界面支持众多插件与扩展，能增强数据分析。在此情境下，CytoScape 插件 iRegulon 通过扫描基因列表寻找过度表示的调控基序与染色质特征，执行 TF-靶基因富集分析，预测最可能成为网络中关键调控因子的 TF。ClueGO 是另一 CytoScape 插件，通过整合 KEGG、Reactome 与 WikiPathways 等数据库中的基因本体术语与通路注释来增强功能富集分析；它使用统计检验识别基因列表中显著过度表示的生物学术语，并基于共享基因对相关术语分组；其结果是一个交互式网络地图，简化了对复杂生物数据的可视化，使研究者能生成数据驱动的假设并更清晰地理解生物系统。

结论（Conclusion）

GRN 在血管生物学中扮演关键角色，通过协调细胞对生理与病理条件的复杂反应而发挥核心作用。测序技术与计算建模的进步显著提升了人类推断与分析这些网络的能力——从基于相关性的方法到机器学习途径等多种推断模型提供了对 GRN 动力学的互补洞察；功能注释与通路富集分析进一步对调控互作做语境化；多组学整合工具则提升了 GRN 研究的分辨能力。尽管已有这些进展，将多项 GRN 性质（如网络稀疏性与非线性依赖）纳入统一分析框架仍是尚未解决的挑战。未来研究应聚焦于精化推断方法、并整合多样化数据集以构建更准确、更具预测性的血管疾病机制模型；这些努力最终将为血管疾病靶向且更高效的治疗干预铺平道路。

本章个人批注

本章是 Ch12（多组学整合）之后的"方法论收尾"章节，与 Ch8（转录组学方法）形成对照——Ch8 关注实验与统计层面的技术栈，本章则专注于计算层面的网络建模与推断。作者 Basílio 等的写作路径非常工程化：先概述 GRN 在血管稳态中的中心地位与 NGS 带来的革新，再以"模型家族"为线索（相关性、贝叶斯、布尔、微分方程、机器学习、互信息）逐一展示推断算法，最后回到功能注释与多组学整合的语境，将 GRN 嵌入到解释生物意义的工具链中。

阅读中需要警惕两类"暗藏的乐观"。其一，关于每种方法的代表性应用案例，作者倾向于挑选最有利于说明算法威力的实例——例如 CAD 跨物种 GRN 比较中 75% 通路保守性的数字、在 IDD 中识别 Sox9/Id1/Nr2f2/Creb5 的发现、在肺动脉高压中 AURKB 的成功抑制——这些案例可能存在 cherry-picking，方法在一般数据集上的失败率往往被略去。其二，多组学整合工具一节中，MOFA+、KPM、multiGSEA 被并列介绍，但三者在适用规模、可解释性与计算成本上差异极大——MOFA+ 偏无监督降维、KPM 偏个性化扰动、multiGSEA 偏通路富集——选择哪一个取决于问题设定，作者未给出决策准则，读者需要自行补充。

结构上值得注意的一点是，作者把"基于相关性的方法"放在最前，意味着 WGCNA 与 MEGENA 在血管研究领域是"默认入门"——但实际上这些方法并不能区分直接调控与共表达关系，所谓"枢纽基因"更可能是统计意义上的中心而非生物学因果驱动；布尔网络与微分方程模型则更接近因果建模，但是其学习成本与数据需求也更高。从 Ch8 那种偏向实验设计的章节过渡到本章的算法导向，对读者而言需要一个思维切换：不再问"用什么测"而是"用什么算"。

与上下游衔接方面，本章是 Ch12（多组学整合）与 Ch14（基因调控网络的延伸应用）之间的桥梁——但本书目录中实际编号顺序有些不同，读者可根据上下文判断。本章未涵盖"基因调控网络的具体生物学验证"与"CRISPR 扰动筛选"等近年热点，这是技术选型上的一种偏保守。

与上下章的衔接（一段话）

本章前承 Ch12"整合基因组学、转录组学、蛋白质组学、代谢组学及其他组学"。Ch12 解决了"如何把多个组学层级拼起来"的方法论问题——涵盖挑战、方法家族（统计、机器学习、网络）与转化语境——但 Ch12 内并未深入 GRN 推断本身；Ch13 接续这一线索，将视野从"数据整合"收窄至"调控网络推断"这一更专门的问题，逐次介绍六类推断算法（相关性、贝叶斯、布尔、微分方程、机器学习、互信息）、功能注释与通路分析工具、以及多组学网络整合工具（MOFA+、KPM、multiGSEA 与 Cytoscape 生态）。本章后接的章节按目录顺序为 Ch14"血管病理学中的基因调控网络"等下游主题（在不同版本中可能有差异），聚焦于具体心血管疾病的调控网络应用。从全书的论证弧来看，Ch13 是从"通用方法学"章组（Ch8、Ch12）向"领域特定应用"章组过渡的桥梁，也是方法论章节的收尾——之后的内容将聚焦于具体疾病（如动脉粥样硬化、高血压、PAH）中的调控网络实例与临床转化。