跳转至

第三章:因果图与因果效应的识别

Causal Diagrams and the Identification of Causal Effects

Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.


1. 章节概述

本章是《因果论》的核心章节,系统阐述了如何利用因果图(Causal Diagrams)来识别因果效应。全章围绕一个贯穿始终的实例展开:农民使用土壤熏蒸剂(X)提高燕麦产量(Y),但熏蒸剂的效果受到蛔虫种群(Z)以及其他未知因素(如鸟类捕食者种群B)的干扰。这一实例贯穿3.1至3.5节,清晰地展示了从"无法识别的混淆偏差"到"通过图形化准则实现因果效应识别"的完整思维链条。

本章内容可分为六大板块:

第一板块(3.1节)通过Cochran的经典燕麦-熏蒸剂实例,引入因果图的基本概念,说明因果图与Wright路径图的区别——因果图采用非参数化分析,不依赖特定函数形式。

第二板块(3.2节)系统建立"干预"的形式化理论。Pearl将do(X=x)干预定义为从因果模型中删除X的父节点方程并替换为常数X=x,导出截断因子分解公式(3.10)和干预转换的一般形式(3.11)。

第三板块(3.3节)提出控制混淆偏差的两大图形化准则:后门准则(Back-Door Criterion)和前门准则(Front-Door Criterion)。前者判断哪些协变量Z可以阻隔X到Y的所有后门路径;后者利用满足特定条件的中介变量Z来识别因果效应。

第四板块(3.4节)建立干预演算(do calculus)的公理系统,包含三条推理规则(插入/删除观察、行动/观察交换、插入/删除行动),并证明其完备性——凡可通过有限次推理规则约化为无hat符号标准概率表达式的因果效应都是可识别的。

第五板块(3.5节)运用前述理论对典型图形结构进行分类,给出可识别模型(Figure 3.8)和不可识别模型(Figure 3.9)的判定特征,并特别讨论了"弓形模式"(bow pattern)对识别性的阻碍作用。

第六板块(3.6节)为全章讨论部分,内容从正文末尾第1344行开始截断,但从前文可见其讨论方向涉及非线性模型与线性模型的本质差异、局部可识别性与全局可识别性的关系,以及统计实验设计传统中对"中介变量不可调整"教条的质疑。


2. 关键问题与研究动机

本章要回答的核心问题是:在无法进行随机对照实验的情况下,如何仅凭观察数据和一个定性因果图来估计干预效果 P(y | do(x))?

这一问题的研究动机来自三个层面的困难:

实践层面的困难:在许多现实场景中,随机化实验不可行或不伦理。例如,农民自行决定是否使用熏蒸剂,研究者无法强迫其实验组与对照组随机分配。此时,从非实验观察数据中估计因果效应面临"混淆偏差"(confounding bias)——即X和Y的伪相关是由共同的未测混杂因素U驱动的。

理论层面的困难:传统的协变量调整方法(如Simpson悖论所揭示)存在根本性缺陷。Pearl指出,即使统计学家们一个世纪前就认识到这一问题,"究竟应该对哪些协变量进行调整"这一实践问题始终缺乏可操作的数学判据。Rosenbaum和Rubin提出的"可忽略性"(ignorability)概念虽然优雅,但本质上将问题还原为对反事实独立性的判断——而反事实是不可观测的,实践中难以检验。

方法论层面的困难:传统路径分析(Wright 1921)局限于线性模型和高斯噪声,无法处理非线性交互和任意分布的离散数据。研究者需要一种完全非参数化的因果推理框架,能够在任何函数形式下判断因果效应是否可识别,并在可识别时给出闭式估计量。

本章的研究动机因此可以概括为:构建一套基于因果图的形式化体系,使研究者能够(1)明确表达其因果假设;(2)判断在给定假设下因果效应是否可识别;(3)若可识别则给出仅含观察变量的闭式表达式;(4)若不可识别则指明需要补充哪些实验或观察才能实现识别。


3. 主要公式与推导

3.1 结构性因果模型的基本表示

因果模型中的每个变量由其父节点和独立误差项决定:

\[x_i = f_i(p a_i, u_i), \quad i = 1, p , n\]

其中 \(p a_i\)\(X_i\) 在因果图 \(G\) 中的父节点集合,\(u_i\) 是独立分布的背景因素。联合分布可递归分解为:

\[P(x_1, \ldots, x_n) = \prod_i P(x_i | p a_i)\]

3.2 干预的形式化定义(定义3.2.1)

原子干预 do(\(X_i = x_i'\)) 定义为:从模型中删除方程 \(x_i = f_i(p a_i, u_i)\),并将所有剩余方程中的 \(X_i\) 替换为常数 \(x_i'\)。在此定义下,\(X\)\(Y\) 的因果效应为:

\[P(y | \hat{x}) \triangleq P(y | do(X = x))\]

3.3 截断因子分解公式(定理3.10)

对原子干预 do(\(X_i = x_i'\)):

\[P(x_1, \ldots, x_n | \hat{x}_i') = \begin{cases} \prod_{j \neq i} P(x_j | p a_j) & \text{若 } x_i = x_i' \\ 0 & \text{若 } x_i \neq x_i' \end{cases}\]

这表明干预的效果等于在联合分布中删除因子 \(P(x_i | p a_i)\) 后对 \(x_i\) 取特定值 \(x_i'\) 的边缘分布。

3.4 直接原因的调整公式(定理3.2.2)

\(PA_i\)\(X_i\) 的直接原因集合,\(Y\)\(\{X_i\} \cup PA_i\) 不相交,则:

\[P(y | \hat{x}_i') = \sum_{p a_i} P(y | x_i', p a_i) P(p a_i)\]

这是"对 \(PA_i\) 进行调整"的数学表达。

3.5 后门调整公式(定理3.3.2)

若变量集 \(Z\) 满足后门准则(定义3.3.1):(i)\(Z\) 中无 \(X\) 的后代节点;(ii)\(Z\) 阻隔了每条含指向 \(X\) 的箭头的 \(X\)-\(Y\) 路径,则:

\[P(y | \hat{x}) = \sum_z P(y | x, z) P(z)\]

该公式将"干预分布"约化为"观察分布"的加权求和。

3.6 前门调整公式(定理3.3.4)

若变量集 \(Z\) 满足前门准则(定义3.3.3):(i)\(Z\) 拦截所有从 \(X\)\(Y\) 的有向路径;(ii)无未阻隔的从 \(X\)\(Z\) 的后门路径;(iii)\(X\) 阻隔所有从 \(Z\)\(Y\) 的后门路径;且 \(P(x, z) > 0\),则:

\[P(y | \hat{x}) = \sum_z P(z | x) \sum_{x'} P(y | x', z) P(x')\]

该公式利用中介变量 \(Z\) 实现对未观测混杂的"规避",是前门准则的核心应用。

3.7 do演算的三条推理规则(定理3.4.1)

\(G\) 为因果DAG,\(P(\cdot)\) 为对应概率分布,\(X, Y, Z, W\) 为互不相交的点集:

规则1(插入/删除观察):

\[P(y | \hat{x}, z, w) = P(y | \hat{x}, w) \quad \text{若 } (Y \perp Z | X, W)_{G_{\underline{X}}}\]

规则2(行动/观察交换):

\[P(y | \hat{x}, \hat{z}, w) = P(y | \hat{x}, z, w) \quad \text{若 } (Y \perp Z | X, W)_{G_{\underline{X} \underline{Z}}}\]

规则3(插入/删除行动):

\[P(y | \hat{x}, \hat{z}, w) = P(y | \hat{x}, w) \quad \text{若 } (Y \perp Z | X, W)_{G_{\overline{X}, \overline{Z(W)}}}\]

其中 \(Z(W)\) 是在 \(G_{\overline{X}}\) 中不是 \(W\) 节点祖先的 \(Z\) 节点集合。

3.8 前门公式的符号推导(3.4.3节)

以Figure 3.5结构为例,展示do演算的推导流程:

  1. \(P(z | \hat{x}) = P(z | x)\) ——由规则2,\((Z \perp X)_{G_{\underline{X}}}\)
  2. \(P(y | \hat{z}) = \sum_x P(y | x, \hat{z}) P(x | \hat{z})\)
  3. \(P(x | \hat{z}) = P(x)\) ——由规则3,\((X \perp Z)_{G_{\underline{Z}}}\)
  4. \(P(y | x, \hat{z}) = P(y | x, z)\) ——由规则2,\((Y \perp Z | X)_{G_{\underline{Z}}}\)
  5. 综合得 \(P(y | \hat{z}) = \sum_x P(y | x, z) P(x)\)
  6. \(P(y | \hat{x}) = \sum_z P(y | z, \hat{x}) P(z | \hat{x})\)
  7. \(P(y | z, \hat{x}) = P(y | \hat{z}, \hat{x}) = P(y | \hat{z})\) ——由规则2和规则3
  8. 最终得到 \(P(y | \hat{x}) = \sum_z P(z | x) \sum_{x'} P(y | x', z) P(x')\)

公式汇总表

公式编号 名称 核心表达式 适用条件
(3.2) 结构性因果模型 \(x_i = f_i(p a_i, u_i)\) 一般因果模型定义
(3.5) 递归分解 \(P(x_1, \ldots, x_n) = \prod_i P(x_i \| p a_i)\) Markovian模型
(3.10) 截断因子分解 \(P(\mathbf{x} \| \hat{x}_i') = \prod_{j \neq i} P(x_j \| p a_j) \cdot \mathbf{1}_{x_i=x_i'}\) 原子干预 do(\(X_i=x_i'\))
(3.13) 直接原因调整 \(P(y \| \hat{x}_i') = \sum_{p a_i} P(y \| x_i', p a_i) P(p a_i)\) \(Y \cap (\{X_i\} \cup PA_i) = \emptyset\)
(3.19) 后门调整 \(P(y \| \hat{x}) = \sum_z P(y \| x, z) P(z)\) \(Z\) 满足后门准则
(3.28)/(3.29) 前门调整 \(P(y \| \hat{x}) = \sum_z P(z \| x) \sum_{x'} P(y \| x', z) P(x')\) \(Z\) 满足前门准则
(3.31) do演算规则1 \(P(y \| \hat{x}, z, w) = P(y \| \hat{x}, w)\) \((Y \perp Z \| X, W)_{G_{\underline{X}}}\)
(3.32) do演算规则2 \(P(y \| \hat{x}, \hat{z}, w) = P(y \| \hat{x}, z, w)\) \((Y \perp Z \| X, W)_{G_{\underline{X}\underline{Z}}}\)
(3.33) do演算规则3 \(P(y \| \hat{x}, \hat{z}, w) = P(y \| \hat{x}, w)\) \((Y \perp Z \| X, W)_{G_{\overline{X}, \overline{Z(W)}}}\)
(3.45) 代理实验 \(P(y \| \hat{x}) = P(y \| x, \hat{z}) = P(y, x \| \hat{z}) / P(x \| \hat{z})\) 代理变量\(Z\)满足充分条件

4. 关键算法与建模方法

4.1 因果图的构建与解释

因果图的构建遵循以下原则:图中节点代表可观测或不可观测的变量;有向边(实线)表示直接的因果影响;虚线(confounding arcs)表示存在未测混杂因素,即两端节点共享一个未观测的父节点;空心圆表示未测变量(如Figure 3.1中的\(Z_0\)\(B\));图中有向边不存在环。

因果图所表达的核心假设是"阴性因果断言"——图中缺失的链接代表着研究者相信不存在的因果关系。例如,Figure 3.1中缺失\(Z_1 \to Y\)的箭头,表示研究者认为处理前的蛔虫种群不能直接影响燕麦产量,其影响完全由处理后的条件\(Z_2\)\(Z_3\)介导。

4.2 后门准则的判定算法

给定因果图\(G\)、有序变量对\((X, Y)\)和候选协变量集\(Z\),判定\(Z\)是否满足后门准则的算法步骤如下:

  1. 排除后代节点:检查\(Z\)中是否存在\(X\)的任何后代节点(即\(G\)中从\(X\)出发沿有向路径可达的节点)。若存在,则\(Z\)不满足条件(i)。

  2. 阻隔后门路径:列举\(G\)中所有连接\(X\)\(Y\)且含指向\(X\)的箭头的路径。对于每条这样的"后门路径",检查\(Z\)是否阻隔该路径(即\(Z\)中是否存在一个节点位于该路径上,或该路径上的某个碰撞节点及其后代节点均不在\(Z\)中)。若存在未被阻隔的后门路径,则\(Z\)不满足条件(ii)。

  3. 若两步均通过:则\(Z\)为后门准则允许的协变量集,可用于调整公式(3.19)估计因果效应。

4.3 前门准则的判定算法

给定因果图\(G\)和变量对\((X, Y)\),判定中介变量集\(Z\)是否满足前门准则:

  1. 有向路径拦截:检查\(Z\)是否位于所有从\(X\)\(Y\)的有向路径上(即每条\(X \to \cdots \to Y\)路径均经过\(Z\))。

  2. 无后门从X到Z:列举所有从\(X\)\(Z\)的路径(含后门路径),检查\(X\)是否阻隔所有这些路径(即不存在未阻隔的从\(X\)\(Z\)的后门路径)。

  3. X阻隔后门从Z到Y:列举所有从\(Z\)\(Y\)的路径(含后门路径),检查\(X\)是否阻隔所有这些路径。

4.4 do演算的符号推导方法

给定目标因果效应表达式\(P(y | \hat{x})\),利用do演算进行识别性推导的通用策略:

  1. 子句分解:将复杂表达式分解为多个含hat符号的子项,如通过链式法则 \(P(y | \hat{x}) = \sum_z P(y | z, \hat{x}) P(z | \hat{x})\) 进行分解。

  2. 规则适用性检查:对每个子项,检查各条do演算规则的适用条件(依赖d-分离关系),选择可应用的规则进行转换。

  3. hat符号消除迭代:重复应用do演算规则,直至所有hat符号被消除,表达式变为纯观察概率的组合。

  4. 识别性判定:若存在有限次规则应用使所有hat符号消除,则因果效应可识别;若无法消除,则不可识别。

4.5 弓形模式(Bow Pattern)的识别

弓形模式指存在未测混杂因素\(U\)同时影响\(X\)\(Y\),且\(X \to Y\)为直接因果路径的结构。其数学形式为:

\[Y = f_Y(X, U, e_Y), \quad \text{其中 } U \not\perp X\]

弓形模式的存在意味着即使存在观测变量\(Z\)满足传统工具变量条件,\(P(y | \hat{x})\)在非参数模型中仍不可识别。这一性质与线性模型中工具变量可识别ATE的性质形成鲜明对比,揭示了非参数因果推断的根本性困难。


5. 主要结论

本章建立了因果图方法识别因果效应的完整理论体系,主要结论如下:

结论一(可识别性的充要条件):在Markovian或半Markovian因果模型中,当且仅当存在有限次do演算规则应用可将\(P(y | \hat{x})\)约化为仅含观察变量的标准概率表达式时,\(P(y | \hat{x})\)是可识别的(定理3.4.1推论3.4.2)。do演算的三条规则被发现是完备的——凡可约化的均为可识别的(Shpitser and Pearl 2006a; Huang and Valtorta 2006)。

结论二(后门调整的充分性):若变量集\(Z\)满足后门准则,则通过标准调整公式(3.19)可直接从观察数据估计因果效应,无需进行随机化实验。这为流行病学中的协变量选择提供了可机械检验的图形化判据。

结论三(前门调整的存在性):即使存在未测混杂,只要能找到一个满足前门准则的中介变量\(Z\),仍可通过两步调整公式(3.29)识别因果效应。这一发现突破了"未测混杂必然导致不可识别"的悲观论断,展示了通过中介变量实现"绕过"未测混杂的可能性。

结论四(弓形模式的不可识别性):若\(X\)\(Y\)之间存在弓形模式(即存在从\(X\)指向\(Y\)的直接因果边,同时该边被一个confounding arc拥抱),则无论引入多少观测变量,\(P(y | \hat{x})\)在非参数模型中均不可识别。这与非参数模型中"添加弧线只能阻碍、不能帮助识别"的性质(3.5节)相呼应。

结论五(局部可识别≠全局可识别):Figure 3.7(c)/3.9(g)展示了即使所有局部因果效应(如\(P(z_1 | \hat{x})\)\(P(z_2 | \hat{x})\)\(P(y | \hat{z}_1)\)\(P(y | \hat{z}_2)\))均可识别,联合分布\(P(z_1, z_2 | \hat{x})\)仍可能不可识别,从而导致\(P(y | \hat{x})\)不可识别。这一发现是离散非参数模型与线性模型的重要差异——在线性模型中,局部识别性蕴含全局识别性。

结论六(中介变量可调整的合法性):传统实验设计文献告诫不要对"受处理影响的协变量"进行调整,但本章通过Figure 3.8(e)(f)(g)等结构证明,当这些中介变量满足特定图形结构时,不仅可以调整,而且是识别因果效应的必要条件。其调整方式为"多阶段标准调整",如前门公式(3.28)和(3.48)、(3.49)所示。

结论七(代理实验的可行性):当直接干预\(X\)不可行时,若能找到代理变量\(Z\)满足"所有从\(Z\)\(Y\)的有向路径都经过\(X\)"且"\(P(y | \hat{x})\)\(G_Z\)中可识别",则可通过控制\(Z\)的代理实验来识别\(P(y | \hat{x})\)。公式(3.45)给出了具体估计量。


6. 挑战与开放问题

6.1 do演算的算法化问题

虽然do演算被证明是完备的,但对于任意给定的因果图\(G\)和目标表达式\(P(y | \hat{x})\),目前没有系统化的算法来判定是否存在一条有限的规则应用序列来实现约化。第3.4节的推导过程依赖于研究者的"图形直觉"和对拓扑结构的经验性把握。这一问题在后续研究中被部分解决(见第4章),但通用的机械化判定仍是挑战。

6.2 非参数模型与线性模型的结构差异

本章反复强调非参数模型与线性模型在识别性方面的本质差异。例如,在线性模型中,工具变量\(Z\)的存在可以识别\(X\)\(Y\)的因果效应(公式3.46);但在非参数模型中,即使存在工具变量,弓形模式仍然导致不可识别(Figure 3.7(b))。这种差异意味着从线性模型继承的直觉在非参数框架下往往失效,研究者需要重新建立因果直觉。

6.3 弓形模式与工具变量的局限

弓形模式的存在构成非参数因果识别中的根本性障碍。在流行病学随机对照实验中,即使治疗分配(\(Z\))被随机化,但依从性(compliance)不完美时,\(X\)\(Y\)之间往往存在弓形模式(如未测因素同时影响个体选择治疗和反应)。此时,即使有工具变量,也只能给出因果效应的上下界(Robins 1989; Manski 1990; Balke and Pearl 1997),而非点估计。

6.4 联合干预与边际干预的不对称性

第3.5节揭示了一个违反直觉的现象:联合干预\(P(y | \hat{x}, \hat{z}_2)\)可能比边际干预\(P(y | \hat{x})\)更容易识别。Figure 3.7(c)结构中前者可计算而后者不可计算。这一现象在设计实际实验时需要特别关注——有时对多个变量同时进行干预反而比单独干预一个变量更容易实现因果识别。

6.5 部分可识别性与边界估计

当因果效应不可精确识别时(如存在弓形模式),如何给出因果效应的最优上下界,以及在什么条件下这些边界会收缩为唯一点,是第8章将要深入讨论的问题。本章仅指出这类问题存在,但未给出系统解决方法。

6.6 半Markovian模型中的隐变量处理

本章假定所有模型要么是Markovian(所有背景变量独立),要么是半Markovian(隐变量独立但可表示为confounding arcs)。但实际中多个变量可能共享一个未测混杂因素且该混杂因素本身与其他变量有复杂依赖关系。如何在这种情况下正确构建因果图并应用识别理论,是第7章将讨论的一般非Markovian模型的预备问题。


7. 个人反思与批判性分析

7.1 本章的理论贡献

Pearl在本章中完成了一项集大成的工作:将因果推断的三大传统——Wright的路径分析、Hausman和Haavelmo的结构方程模型、以及Rubin的潜在结果框架——统一在因果图和do演算的形式体系下。特别是do演算的提出,使"因果假设"这一长期停留在哲学层面的概念第一次获得了可机械检验的算法实现。

后门准则和前门准则的提出是流行病学和因果推断实践者的重大突破。以吸烟与肺癌为例,传统上研究者必须面对"基因型混杂"的质疑——即存在未测基因型同时影响吸烟行为和肺癌风险。若该基因型不可观测,就无法进行传统的协变量调整。但前门准则告诉我们,只要能找到一个满足条件的中介变量(如肺部焦油沉积量),即使无法观测基因型,仍可通过两步法识别吸烟对肺癌的因果效应。

7.2 对"中介变量不可调整"教条的批判

本章第3.5.1节的第6点明确批判了实验设计传统中"避免调整受处理影响的协变量"的惯例。Pearl指出这一教条源于对"调整"概念的混淆——传统统计调整(对冲条件概率的积分)与因果推断中的调整(do演算中消除后门路径的操作)有本质区别。当受处理影响的协变量\(Z\)满足特定图形结构(如\(Z\)\(X\)的后代节点且满足前门或后门条件)时,测量并调整\(Z\)不仅是合法的,而且是识别总因果效应的必要条件。

这一批判对流行病学方法论具有深远影响。许多流行病学研究因固守"中介变量不调整"的教条而错过了利用中介变量进行因果识别的机会。本章的理论为这些研究提供了重新分析的依据。

7.3 对弓形模式不可识别性的深刻理解

弓形模式不可识别性的证明(Figure 3.7(a))揭示了非参数因果推断的核心困难:未测混杂的存在使得\(X\)\(Y\)之间的任何观测相关都可能是"虚假的"——它既可能源于\(X\)\(Y\)的因果效应,也可能完全源于\(U\)对两者的独立驱动。在不假设函数形式的情况下,这两种解释永远无法被观察数据区分。

这一结论的政策含义是:在存在未测混杂风险的情况下,仅凭观察性研究永远无法给出因果效应的点估计,除非找到满足前门准则的中介变量或其他特殊结构。这或许是为什么随机对照实验仍然是因果推断金标准的深层理论原因。

7.4 对do演算完备性的理论意义

do演算被证明是完备的(Shpitser & Pearl 2006; Huang & Valtorta 2006),这意味着识别性问题在因果图框架下是可判定的——对于任何因果图\(G\)和目标表达式,总存在一个算法在有限步内判定其是否可识别(或给出反例)。这一结果将因果推断从"艺术"变为"技术",是本章最重要的理论贡献之一。

7.5 与潜在结果框架的关系

本章采用结构方程视角(\(do\)算子),而Rubin的潜在结果框架采用反事实变量\(Y_x\)。Pearl在第3.2.2节的脚注中指出,\(P(y | do(x))\)\(P(Y_x = y)\)在语义上是等价的(后者由Neyman 1923和Rubin 1974提出)。两框架的差异主要体现在表示语言和推导方法上:潜在结果框架更接近统计学家熟悉的条件概率语言,而结构方程框架则与因果图有天然的联系。

7.6 对未来研究的启示

本章提出的框架虽然强大,但仍存在若干局限:

第一,do演算虽然完备,但缺乏高效的机械算法。当图结构复杂时,手动推导极易出错,需要发展计算机辅助推导工具。

第二,本章假定因果图结构已知且正确。但实践中因果图的构建依赖于领域专家知识,可能存在错误。如何在因果图不确定的情况下进行稳健因果推断,是重要研究方向。

第三,本章主要处理离散变量。对于连续变量,非参数识别性分析面临更大的技术困难,尽管理论上结论应同样适用。

第四,本章未涉及时间序列和动态干预问题。第3.2.3节的"动态过程控制"例子虽然涉及时间依赖结构,但仅限于Markovian假设下的一般性讨论,更复杂的动态因果推断问题留待后续章节。

总之,第三章建立了因果推断的形式化基础,为后续各章的深入发展铺平了道路。其核心贡献在于将"因果识别性"这一抽象概念转化为可计算的图形准则和代数公式,使研究者能够在给定因果假设下明确回答"因果效应是否可估计"以及"如何估计"这两个根本问题。


读书笔记版本:Pearl 2009 Causality,第3章,共1344行原文。本笔记约4500字。