第 3 章：因果图与因果效应的识别（Causal Diagrams and the Identification of Causal Effects）

3.1 引言（Introduction）

本章用一个源自 Cochran（见 Wainer 1989）的经典案例来开篇：土壤熏蒸剂 X 通过控制线虫群体 Z 来提高燕麦产量 Y，但熏蒸剂本身也可能对产量有直接的正负效应；当随机实验不可行（农户自己决定哪些地块施用），且农户的选择依赖上一季的线虫数量 Z0 时，就构成了一个无论样本量多大都会干扰处理效应估计的混杂偏倚问题。幸运的是，研究者可以通过土壤样本分析获得处理前后的线虫数量（Z1、Z2、Z3），并因为熏蒸剂作用期短，可以安全假设它不影响存活线虫的后续繁殖——线虫的生长只取决于鸟类等捕食者 B，而 B 与上一季线虫数量 Z0 相关，从而与处理 X 相关。

本章的方法让研究者能把这类复杂考量翻译成形式化语言，以便完成四项任务：（1）阐明模型背后假设；（2）判断假设是否足以对目标量——熏蒸剂对产量的总效应——给出相容估计；（3）若可识别，给出用观测量的分布表示目标量的闭式表达；（4）若不可识别，给出额外观测或实验的建议以使相容估计可行。

分析的第一步是构造一张因果图（图 3.1），用以表达研究者对域内主要因果关系的理解。Z1、Z2、Z3 分别代表处理前、处理后、季末的线虫数量；Z0 是上一季的线虫数量，因为未知，用空心圆表示，B（鸟及其他捕食者）同理。图中的链接分两种：来自未测量的用虚箭头、连接测量量之间用实箭头。图的实质性假设是通过缺失的链接传递的负因果断言，例如 Z1 与 Y 之间缺失的箭头意味着研究者认定处理前线虫不直接影响燕麦，它们对产量的全部影响都经由处理后的 Z2、Z3 介导。本章的目的不是验证或反驳这类领域假设，而是检验这些假设是否足以从非实验数据量化因果效应——此处即熏蒸剂对产量的总效应。

图 3.1 的因果图与 Wright（1921）设计的路径图在许多方面相似：都体现研究者对域内因果影响的定性和主观知识，都用有向无环图，都允许纳入潜在或未测量的量。主要差别在于分析方法：路径图多在线性高斯噪声模型下分析，因果图允许任意非线性相互作用，本章的分析将完全是非参数的，不对方程形式或分布作任何特定假设；因果图不只用作传达假设的被动语言，也用作主动的计算装置，借此推导出所求量。例如，对图 3.1 立即可得到以下结论：（1）X 对 Y 的总效应可由 X、Z1、Z2、Z3、Y 的观测分布相容估计；（2）（在离散变量下）总效应由公式 (3.1) 给出；（3）若 Y 与 Z3 混杂，则相容估计不可行，但 Z2 与 Y 混杂不会让公式失效。这些结论或者通过图的可视化性质，或者通过图引导的符号推导得出。

3.2.1 图作为干预的模型（Graphs as Models of Interventions）

第 1 章 1.3 节已说明，因果模型不同于概率模型，可以预测干预效应。这要求在联合分布 P 之外附加一张因果图——一张标识变量间因果联系的有向无环图 G。本节详细阐述干预的本质并给出显式的效应公式。因果图与概率图之间的连接来自基于机制（mechanism-based）的因果观，其根源可追溯到早期计量经济学工作（Frisch 1938; Haavelmo 1943; Simon 1953）：图中链接所代表的因果影响，对应变量间自主的物理机制，这些机制被建模为受随机扰动扰乱的函数关系。沿袭这一传统，Pearl 和 Verma（1991）用函数而非概率关系来解释 DAG 的因果读法（见 (1.40) 和定义 2.2.2），即 DAG 中每对父子族对应一个确定性函数 xi = fi(pai, ei)，其中 pai 是 G 中 Xi 的父节点，ei 是联合独立的任意分布随机扰动，代表研究者选择不纳入分析的独立背景因素。若任一背景因素被判定影响两个或更多变量（违反独立性假设），则它必须以未测量（潜在）变量的形式进入分析，并在图中以空心节点表示，例如图 3.1 的 Z0 与 B。

更一般地，可以把所有未观测因素（包括 ei）合并为一个背景变量集 U，用分布函数 P(u) 或其某些方面（例如独立性）刻画其特征。一个因果模型的完整规范包含两个分量：一组函数关系 xi = fi(pai, ui)（i = 1,…, n）以及背景因素上的联合分布 P(u)。若因果模型 M 关联的图 G(M) 无环，则 M 称为半马尔可夫的（semi-Markovian）；若进一步背景变量互相独立，则 M 称为马尔可夫的，因为这时观测变量的分布相对 G(M) 是马尔可夫的（见定理 1.4.1）。图 3.1 的模型在观测变量为 {X, Y, Z1, Z2, Z3} 时是半马尔可夫的；若 Z0 与 B 也被观测，则变为马尔可夫。第 7 章分析一般的非马尔可夫模型，但本章假设模型要么是马尔可夫的，要么是带未观测变量的马尔可夫的（即半马尔可夫）。

等式模型 (3.2) 是所谓结构方程模型（Wright 1921; Goldberger 1973）的非参数对应物，但函数形式与扰动项分布保持未指明。结构方程中的等号传递的是"由…决定"这种不对称的反事实关系，每个方程代表一个稳定的自主机制。例如 Y 的方程说明：无论我们目前观测到 Y 是什么，也无论其他方程发生什么变化，若 (X, Z2, Z3, eY) 取值 (x, z2, z3, eY)，则 Y 必然取值 fY 所决定的值。

回到 1.4 节的讨论，每个父子关系的函数刻画导致与贝叶斯网络相同的联合分布递归分解 P(x1,…, xn) = ∏i P(xi | pai)（3.5）。该函数刻画还提供了一种便利语言，用于刻画结果分布如何响应外部干预——每项干预被编码为对选定函数子集的扰动，其他函数保持不变。一旦知道干预改变的机制及其性质，就可以通过修改模型中的对应方程，用修改后的模型计算新的概率函数，从而预测干预的整体效应。

最简单的外部干预是让单个变量 Xi 强制取某固定值 xi。这样的"原子"干预等同于把 Xi 从原机制 xi = fi(pai, ui) 下抽出，放入一个把 Xi 置为 xi、其他机制不动的新机制下。形式上，原子干预 do(Xi = xi)（简写 do(xi)）从模型中删除方程 xi = fi(pai, ui)，并在剩余方程中用 Xi = xi 替代。这样得到的新模型刻画系统在干预 do(Xi = xi) 下的行为，求 Xj 的分布即得 Xi 对 Xj 的因果效应，记作 P(xj | x̂i)。更一般地，当干预让变量子集 X 取固定值 x 时，对 (3.4) 中每个 X 成员删去对应方程，从而在剩余变量上定义一个新分布，完全刻画干预效应。

定义 3.2.1（因果效应） 给定两个不相交变量集 X、Y，X 对 Y 的因果效应，记作 P(y | x̂) 或 P(y | do(x))，是从 X 到 Y 上概率分布空间的一个函数。对 X 的每个实现 x，P(y | x̂) 给出在从 (3.4) 的模型中删除 X 成员对应方程、用 X = x 替代后 Y = y 的概率。

显然，约简方程组对应的图是 G 中删去所有进入 X 的箭头后的子图（Spirtes 等 1993）。差 E(Y | do(x′)) − E(Y | do(x″)) 有时被当作因果效应的定义（Rosenbaum 和 Rubin 1983），其中 x′、x″ 是 X 的两个不同取值。这一差值总可以从一般函数 P(y | do(x)) 算出，后者对 X 的每个水平 x 都有定义，从而提供更精细的干预效应刻画。

3.2.2 干预作为变量（Interventions as Variables）

干预的另一种（有时更吸引人的）描述是把引起干预的力视作系统内的变量（Pearl 1993b）。做法是把函数 fi 本身表示为变量 Fi 的一个取值，再把 (3.2) 写成 xi = I(pai, fi, ui)（3.7），其中 I 是满足 I(a, b, c) = fi(a, c) 当 b = fi 的三参数函数。这等于把干预概念化为改变 fi 的外部力 Fi。图形上，Fi 可表示为 Xi 的新增父节点，干预效应通过标准条件化分析——即对 Fi 取 fi 的事件做条件化。

原子干预 do(Xi = x′i) 的效应通过向 G 增加一条链 Fi → Xi（见图 3.2）来编码，其中 Fi 是一个取值于 {do(x′i), idle} 的新变量，x′i 遍历 Xi 的值域，"idle"代表无干预。Xi 在增广网络中的新父集为 PA′i = PAi ∪ {Fi}，其与 Xi 的条件概率由 (3.8) 给出：Fi = idle 时为 P(xi | pai)，Fi = do(x′i) 且 xi = x′i 时为 1，否则为 0。

干预 do(x′i) 的效应是把原概率函数 P(x1,…, xn) 变为新概率函数 P(x1,…, xn | x̂′i)，由 P(x1,…, xn | x̂′i) = P′(x1,…, xn | Fi = do(x′i))（3.9）给出，其中 P′ 由增广网络 G′ = G ∪ {Fi → Xi} 与 (3.8) 配合对 Fi 的任意先验分布共同决定。一般地，通过向 G 中每个节点添加假设干预链 Fi → Xi，可以构造一个增广概率函数 P′(x1,…, xn; F1,…, Fn)，包含更丰富类型的干预信息。多个干预通过让 P′ 在若干 Fi 上条件化（取值于各自的 do(x′i) 值域）表示，事前概率函数 P 则被理解为 P′ 中每个 Fi 条件为 "idle" 的后验分布。

增广网络表示的优点之一是它适用于 fi 的任何变化，而不仅限于把 fi 替换为常数。它也清楚地展示了 fi 自身未经外部控制的自发变化的含义。图 3.2 预测，例如，只有 Xi 的后代会受 fi 变化影响，因此对 Xi 的任何非后代集 Z，边缘概率 P(z) 保持不变。类似地，图 3.2 断定，只要 Xi 把 Fi 与 Y d-分开，对 Y 的任何后代集 Y，条件概率 P(y | xi) 对 fi 变化保持不变。Kevin Hoover（1990, 2001）曾用这种不变特征，通过观察税收改革、劳动纠纷等过程中机制的突然局部变化所引起的边缘与条件概率变化，确定经济变量（例如就业与货币供给）之间的因果方向。当研究者从历史或制度知识获得某机制 fi 在某族 (Xi, PAi) 中发生突然局部变化的信息时，可以据此判断 Xi 是否真是该族的子节点，从而确定域内的因果结构（Tian 和 Pearl 2001a）。在增广网络 G′ 中可以看到在这样变化下保持不变的统计特征以及蕴含的因果假设。

3.2.3 计算干预效应（Computing the Effect of Interventions）

无论把干预表示为对已有模型的修改（定义 3.2.1）还是增广模型中的条件化（(3.9)），结果都是事前、事后分布之间一个良定义的变换。对原子干预 do(Xi = x′i)，这一变换可由 (3.2) 与定义 3.2.1 直接导出一个简单的截断因子分解公式 (3.10)：若 xi = x′i，等于 ∏j≠i P(xj | paj)；否则为 0。公式 (3.10) 反映了从 (3.5) 的乘积中删除项 P(xi | pai)，因为 pai 不再影响 Xi。例如，干预 do(X = x′) 把 (3.6) 的事前分布变换为 P(z0, z1, b, z2, z3, y | x̂′) = P(z0) P(z1 | z0) P(b | z0) P(z2 | x′, z1) P(z3 | z2, b) P(y | x′, z2, z3)。图形上，删除项 P(xi | pai) 等价于删除 PAi 与 Xi 之间的链接而保持网络其他部分不变。显然 (3.10) 定义的变换满足定义 1.3.1 的条件以及 (1.38)–(1.39) 的性质。

把 (3.10) 乘除 P(x′i | pai) 后，事前分布的关系变得更透明 (3.11)：若 xi = x′i，等于 P(x1,…, xn) / P(x′i | pai)；否则为 0。若把联合分布看作给抽象点 (x1,…, xn) 分配质量，则 (3.11) 揭示了干预 do(Xi = x′i) 所引起的质量分布变化的有趣性质（Goldszmidt 和 Pearl 1992）。每个点 (x1,…, xn) 的质量按对应 pai 上 P(x′i | pai) 的倒数增加；该条件概率低的点质量大增，而 pai 值预期自然（非干预）地实现 x′i 的点（即使 P(x′i | pai) ≈ 1）质量不变。在标准贝叶斯条件化中，每个被排除点 (xi ≠ x′i) 通过重整化常数把质量转移到整个保留点集合。但 (3.11) 描述的是不同的变换：每个被排除点 (xi ≠ x′i) 把质量转移到与之共享 pai 值的特定点集合。从每个 pai 层的总质量及层内点相对质量保持不变可以看出这一点（用 Si 表示除 {PAi, Xi} 外的所有变量集）。这组接收质量的特定点可以视为通过共享 pai 概括的"历史"而"最接近"被排除的点（见 4.1.3 与 7.4.3 节）。

把除以 P(x′i | pai) 解释为对 x′i 与 pai 的条件化，可得 (3.11) 的另一种形式 (3.12)：xi = x′i 时为 P(x1,…, xn | x′i, pai) P(pai)，否则为 0。当把 (3.12) 用于计算 do(Xi = x′i) 对与 {Xi, PAi} 不相交的变量集 Y 的效应时，对除 Y ∪ {Xi} 外的所有变量求和，得到以下定理。

定理 3.2.2（直接原因的调整） 设 PAi 为变量 Xi 的直接原因集合，Y 为与 {Xi, PAi} 不相交的任意变量集。干预 do(Xi = x′i) 对 Y 的效应为 P(y | x̂′i) = ∑pai P(y | x′i, pai) P(pai)（3.13），其中 P(y | x′i, pai) 与 P(pai) 为事前概率。(3.13) 要求对 Xi 的父节点条件化 P(y | x′i)，再用 PAi 的先验概率加权平均。这一条件化加平均的操作称为"对 PAi 调整"。这种调整的变形曾被许多哲学家当作因果与因果效应的概率定义（见 7.5 节）。Good（1961）要求对"宇宙刚发生原因那一刻的状态"做条件化；Suppes（1970）要求对到原因发生为止的整个过去做条件化；Skyrms（1980, p. 133）要求对"在我们影响之外但在决策时刻与行动结果有因果相关的因素的极大特定说明"做条件化。这些提议的目的当然是消除原因（此处 Xi = x′i）与结果（Y = y）之间的虚假相关；显然父节点集 PAi 可以很经济地达到此目的。在本书沿用的结构性解释中，因果效应的定义方式与此根本不同：条件化算子不是作为抑制虚假相关的补救"调整"被引入 (3.13)，而是从更深的原则 (3.10)——保留事前分布所能提供的一切不变信息——自然涌现。

(3.10) 的变换容易推广到更复杂的干预，比如同时操纵若干变量。考虑复合干预 do(S = s)，S 是变量子集，则（呼应 (1.37)）应从 (3.5) 的乘积中删除所有对应 S 成员的因子 P(xi | pai)，得到更一般的截断因子分解 (3.14)。类似地，不局限于把变量设为常数的简单干预，而是考虑对因果模型更一般的修改：若把决定 Xi 值的机制替换为另一个方程，可能涉及新的父集 PAi，则结果分布通过把因子 P(xi | pai) 替换为新方程诱导的条件概率 P(xi | pai) 得到。修改后的联合分布为 P(x1,…, xn) = P(x1,…, xn) P(xi | pai) / P(xi | pai)。

例：动态过程控制 设变量 Zk 表示生产过程在时刻 tk 的状态，Xk 表示用于控制该过程的（同一时刻的）变量集（见图 3.3）。例如 Zk 可以是工厂各处温度与压力，Xk 可以是各战略管道的化学品流速。假设数据是在策略 S 下收集的：每个 Xk 由 (i) 监控三个前序变量 (Xk−1, Zk, Zk−1) 与 (ii) 以概率 P(xk | xk−1, zk, zk−1) 选取 Xk = xk 决定。性能用联合概率函数 P(y, z1, z2,…, zn, x1, x2,…, xn) 总结，Y 是结果变量（例如最终产品质量）。最后假设（为简单起见）过程状态 Zk 只依赖前一状态 Zk−1 与前一控制 Xk−1。评估用新策略 S（其中 Xk 由新条件概率 P(xk | xk−1, zk, zk−1) 选取）替换 S 的优劣。

按之前的分析（(3.14)），新策略 S 的性能 P(y) 由 (3.15) 给出。因为前两项不变、第三项已知，得到 (3.16)。在 S 是确定性且时不变的特例下，Xk 是 Xk−1、Zk、Zk−1 的函数 xk = g(xk−1, zk, zk−1)，则对 x1,…, xn 的求和可以执行，得到 (3.17)，其中 gk 递归定义为 g1 = g(z1)、gk = g(gk−1, zk, zk−1)。在 S 由原子动作 do(Xk = xk) 组成的特例下，函数 g 退化为常数 xk，得到 P*(y) = P(y | x̂1, x̂2,…, x̂n) = ∑z1,…,zn P(y | z1, z2,…, zn, x1, x2,…, xn) ∏k P(zk | zk−1, xk−1)（3.18），也可由 (3.14) 得到。

本例刻画的问题是马尔可夫决策过程（MDP；Howard 1960; Dean 和 Wellman 1991; Bertsekas 和 Tsitsiklis 1996）的典型：目标是给定当前状态 Zk 与过去动作，求最优下一步动作 do(Xk = xk)。MDP 通常给定转移函数 P(zk+1 | zk, x̂k) 与待最小化的代价函数。在刚刚分析的问题中，转移与代价函数都没有给出，必须从过去（可能是次优）策略下收集的数据中学习。幸运的是，因为模型中所有变量都被观测，两个函数都可识别，可以直接从对应条件概率估计：P(zk+1 | zk, x̂k) = P(zk+1 | zk, xk)；P(y | z1, z2,…, zn, x̂1, x̂2,…, x̂n) = P(y | z1,…, zn, x1,…, xn)。第 4 章 4.4 节处理部分可观测的马尔可夫决策过程（POMDP），其中部分状态 Zk 不可观测，学习转移与代价函数将需要更精细的识别方法。值得指出的是，在本例中，要预测新策略的效应必须先测量被某些控制变量 (Xk−1) 影响的变量 (Zk)。这种测量在经典实验设计文献（Cox 1958, p. 48）中通常被回避，因为它们位于处理与结果之间的因果路径上，会混杂所求的效应估计。然而本分析表明，当被恰当处理时，这样的测量对预测动态控制规划的效应是不可或缺的。这在半马尔可夫模型（含未观测变量的 DAG）下尤其如此，将在 3.3.2 节分析。

小结本节分析的立即含义是：在干预变量的所有直接原因（即父节点）都可观测的因果图下，可从事前分布推出事后分布，因此可在被动（非实验）观测下用截断因子分解公式 (3.14) 估计干预效应。但更具挑战性的问题是在类似图 3.1 的情形中推出因果效应，其中 PAi 的某些成员不可观测，从而无法估计 P(x′i | pai)。3.3 与 3.4 节给出简单的图形测试，决定这种模型中 P(xj | x̂i) 是否可估。但首先需要更形式化地定义因果量 Q 在被动观测下可估的含义，这属于识别这一技术术语。

3.2.4 因果量的识别（Identification of Causal Quantities）

因果量与统计参数不同，是相对于因果模型 M 而非观测变量集 V 上的联合分布 PM(y) 定义的。因为非实验数据只提供 PM(y) 的信息，而多个模型可生成同一分布，所需量即使在无穷多样本下也可能无法从数据中无歧义地分辨。识别性保证：M 所附加的假设（例如因果图或结构方程中的零系数）能提供缺失信息而无需把 M 完全展开。

定义 3.2.3（识别性） 设 Q(M) 是模型 M 的任一可计算量。若对模型类 M 中任一对 M1、M2，只要 PM1(y) = PM2(y)，就有 Q(M1) = Q(M2)，则称 Q 在 M 中可识别。若观测受限、只允许估计 PM(y) 的部分特征集 FM，则只要 FM1 = FM2，就有 Q(M1) = Q(M2)，就称 Q 从 FM 可识别。

识别性是把统计数据（由 P(y) 概括）与 {fi} 的不完全因果知识整合的关键，它让我们无需指定 M 的细节，只用类 M 的一般特征，就可从 P(y) 的大样本相容估计量 Q。在本分析中，感兴趣的量 Q 是因果效应 PM(y | x̂)，它当然可从给定模型 M（用定义 3.2.1）算出，但通常需要从 M 的不完整规范——M 关联图 G 的定性特征——算出。因此考察一个满足下列共性的模型类 M：（i）共享相同的父子族（即同一因果图 G）；（ii）在观测变量上诱导正分布（即 P(y) > 0）。

定义 3.2.4（因果效应可识别） 若量 P(y | x̂) 可从观测变量的任意正概率分布唯一定出，即对每对满足 PM1(y) = PM2(y) > 0 且 G(M1) = G(M2) = G 的模型 M1、M2 都有 PM1(y | x̂) = PM2(y | x̂)，则称 X 对 Y 的因果效应从图 G 可识别。

P(y | x̂) 的可识别性保证可从两类信息推断动作 do(X = x) 对 Y 的效应：（i）被动观测，由概率函数 P(y) 概括；（ii）因果图 G，定性指明域内哪些变量构成稳定机制，或等价地，哪些变量参与决定域内每个变量。

把识别性限制在正分布上，保证条件 X = x′ 在恰当语境下出现于数据中，从而避免 (3.11) 中的零分母。若 X 在施加动作的语境下从不取值 x′，就不可能从数据推断 do(X = x′) 的效应。某些非正分布的扩展可行但不在此处理。注意，要证不可识别，只需给出两组结构方程，它们在观测变量上诱导相同分布但因果效应不同。

用识别性概念，可把 3.2.3 节的结果概括为以下定理。

定理 3.2.5 给定任一马尔可夫模型的因果图 G，其中变量子集 V 被观测，只要 {X, Y, PAX} ⊆ V（即 X、Y 与 X 成员的所有父节点都被观测），则因果效应 P(y | x̂) 可识别。P(y | x̂) 的表达式可由对 PAx 的调整得到，如 (3.13)。

推论 3.2.6 给定任一所有变量都被观测的马尔可夫模型的因果图 G，对变量 X、Y 的任意两个子集，因果效应 P(y | x̂) 可识别，并由 (3.14) 的截断因子分解得到。

下面把注意力转向半马尔可夫模型的识别问题。

3.3 控制混杂偏倚（Controlling Confounding Bias）

每当评估一个因子 X 对另一个因子 Y 的效应时，问题在于是否应对其他因子（Z，"协变量"、"伴随变量"或"混杂因子"；Cox 1958, p. 48）的可能变化做调整（或"标准化"）。调整就是按 Z 把总体分为同质子群，在每个同质子群评估 X 对 Y 的效应，再把结果加权平均（如 (3.13)）。这种调整的虚幻性早在 1899 年 Karl Pearson 发现后来称为辛普森悖论的现象时就被认识到（见 6.1 节）：两个变量之间的任何统计关系都可能被纳入额外因子而反转。例如可能发现吸烟学生成绩比不吸烟学生高，但按年龄调整后，每个年龄组吸烟学生成绩反而低；进一步按家庭收入调整，吸烟学生在每个收入—年龄组又比不吸烟学生高，等等。

尽管经过百年分析，辛普森反转仍在"困扰不谨慎者"（Dawid 1979），其所提出的实际问题——对给定协变量的调整是否合适——一直抗拒数学处理。流行病学家仍在争论"混杂"的含义（Grayson 1987; Shapiro 1997），并常对错误的协变量集做调整（Weinberg 1993; 也见第 6 章）。Rosenbaum 和 Rubin（1983）以及 Pratt 和 Schlaifer（1988）的潜在结果分析引入了"可忽略性"（ignorability）概念，把混杂问题用反事实词汇重新表述，但未能为研究者提供一个可操作的标准来指导协变量的选取（见 11.3.2 节）。可忽略性可读为："若给定 Z，则当 X = x 时 Y 的取值与 X 独立。"因为反事实不可观测，且关于反事实的条件独立判断不容易从常识科学知识中得出，这个问题一直悬而未决：应该用何种标准判定哪些变量适合调整？

3.3.1 节用因果图这一友好语言给出调整问题的一般且形式化的解答。3.3.2 节把结果推广到受 X 影响因而需要多步调整的非标准协变量。3.3.3 节用一个例子说明这些准则的使用。

3.3.1 后门准则（The Back-Door Criterion）

假设给定因果图 G 以及 G 中观测变量子集 V 的非实验数据，希望估计干预 do(X = x) 对响应变量集 Y 的效应，其中 X 与 Y 是 V 的两个子集。换句话说，给定 G 中编码的假设，要从 P(y) 的样本估计 P(y | x̂)。

存在一个简单的图形测试（Pearl 1993b 提出的"后门准则"），可直接施加于因果图，检验变量集 Z ⊆ V 是否足以识别 P(y | x̂)。

定义 3.3.1（后门） 变量集 Z 相对有向无环图 G 中有序变量对 (Xi, Xj) 满足后门准则，若：（i）Z 中没有节点是 Xi 的后代；（ii）Z 阻断每条含一条进入 Xi 的箭头的 Xi 到 Xj 的路径。类似地，若 X 与 Y 是 G 中两个不相交的节点子集，则 Z 相对 (X, Y) 满足后门准则当且仅当对任意一对 Xi ∈ X、Xj ∈ Y 满足该准则。

"后门"之名呼应条件 (ii)，它要求只阻断指向 Xi 的箭头路径；这些路径可视为从后门进入 Xi。例如在图 3.4 中，Z1 = {X3, X4} 与 Z2 = {X4, X5} 满足后门准则，但 Z3 = {X4} 不满足，因为 X4 没有阻断路径 (Xi, X3, X1, X4, X2, X5, Xj)。第 11 章 11.3.1 节给出 (i) 与 (ii) 的直觉。

定理 3.3.2（后门调整） 若变量集 Z 相对 (X, Y) 满足后门准则，则 X 对 Y 的因果效应可识别，由公式 P(y | x̂) = ∑z P(y | x, z) P(z)（3.19）给出。(3.19) 的求和代表按 Z 调整所得到的标准公式；使 (3.19) 成立的 X 变量在 Rosenbaum 和 Rubin（1983）中被命名为"给定 Z 条件可忽略"。把可忽略性条件化归到定义 3.3.1 的图形准则，等于把关于反事实依赖的判断替换为对图中因果关系的普通判断。图形准则可由适用于任意大小与形状图的系统化程序检验。该准则也使分析者能搜索最优协变量集——即最小化测量成本或抽样变异的集 Z（Tian 等 1998）。类似的图形准则用于识别线性结构方程中的路径系数见第 5 章。流行病学研究中的应用见 Greenland 等（1999a）和 Glymour 与 Greenland（2008），其中 Z 称为"充分集"；可采纳集或去混杂集是更好的称呼。

定理 3.3.2 的证明 Pearl（1993b）原本给出的证明基于以下观察：当 Z 阻断 X 到 Y 的所有后门路径时，把 (X = x) 设为 X = x 与条件化 X = x 对 Y 的效果相同。这可从图 3.2 的增广图 G′ 看出，其中加入了干预弧 FX → X。若 X 到 Y 的所有后门路径都被阻断，则从 FX 到 Y 的所有路径必须经过 X 的子节点，而这些路径会因条件化 X 而被阻断。这意味着 Y 在给定 X 下与 FX 独立，即 P(y | x, FX = do(x)) = P(y | x, FX = idle) = P(y | x)（3.20），说明观测 X = x 与干预 FX = do(x) 无法区分。形式上，可用 (3.9) 把 P(y | x̂) 用增广概率函数 P′ 写出并对 Z 条件化，得到 (3.21)：由 FX ⇒ X = x，可在最后表达式加上 x；为消除 FX，使用定义 3.3.1 的两个条件。FX 由根节点组成、子节点限制为 X，故与 X 的所有非后代（包括 Z）独立，于是条件 (i) 给出 P′(z | FX) = P′(z) = P(z)。再用后门条件 (ii) 与 (3.20) 即可从 (3.21) 消去 FX，证明 (3.19)。11.3.3 节给出另一种证法。

3.3.2 前门准则（The Front-Door Criterion）

定义 3.3.1 的条件 (i) 反映主流实践："伴随观测应不受处理影响"（Cox 1958, p. 48）。本节展示如何利用受处理影响的伴随变量促进因果推理。出现的新准则（Pearl 1995a 提出的"前门准则"）将构成因果效应一般识别测试的第二块基石（3.4 节与定理 3.6.1）。

考察图 3.5，它代表图 3.4 的模型在变量 X1,…, X5 不可观测、{X1, X6, Xj} 重标为 {X, Z, Y} 时的情况。虽然 Z 不满足任何后门条件，但 Z 的测量仍然能对 P(y | x̂) 给出相容估计。这将通过把 P(y | x̂) 的表达式化归为可由观测分布 P(x, y, z) 计算的公式来证明。

定义 3.3.3（前门） 变量集 Z 相对有序变量对 (X, Y) 满足前门准则，若：（i）Z 截断从 X 到 Y 的所有有向路径；（ii）从 X 到 Z 没有未阻断的后门路径；（iii）从 Z 到 Y 的所有后门路径都被 X 阻断。

定理 3.3.4（前门调整） 若 Z 相对 (X, Y) 满足前门准则且 P(x, z) > 0，则 X 对 Y 的因果效应可识别，由公式 P(y | x̂) = ∑z P(z | x) ∑x′ P(y | x′, z) P(x′)（3.29）给出。

定义 3.3.3 的条件过于严格；条件 (ii) 与 (iii) 排除的一些后门路径其实是允许的，只要它们被某个伴随变量阻断即可。例如图 3.1 中的变量 Z2 借助 Z1 阻断 X 到 Z2 以及 Z2 到 Z3 的所有后门路径，相对 (X, Z3) 满足一个类前门准则。为允许分析这种复杂结构（包括后门与前门条件的嵌套组合），3.4 节引入更强大的符号机制，避开推导 (3.28) 时所用的代数操作。但先看一个例子，说明前门条件的可能应用。

3.3.3 例：吸烟与基因型理论（Example: Smoking and the Genotype Theory）

考虑关于吸烟（X）与肺癌（Y）之间关系的世纪争论（Sprites 等 1993, pp. 291–302）。许多人认为，烟草业得以阻止反吸烟立法，是因为主张吸烟与肺癌的观测相关可以由某种致癌基因型（U）解释——基因型涉及对尼古丁的天生嗜好。

肺中焦油沉积量（Z）是一个有望满足定义 3.3.3 条件的变量，从而符合图 3.5 的结构。为满足条件 (i)，必须假设吸烟除了经由焦油沉积外对肺癌没有其他效应。为满足条件 (ii) 与 (iii)，必须假设即便有基因型加剧肺癌产生，它对肺中焦油量也仅通过吸烟间接起作用。类似地，假设没有影响焦油沉积的其他因素会影响吸烟。定理 3.3.4 的条件 P(x, z) > 0 要求肺中高焦油水平不仅源于吸烟、也可由其他因素（例如环境污染）造成，且一些吸烟者也可能完全没有焦油（可能由于极高效的拒焦油机制）。这一最后条件可在数据中检验。

为演示如何评估吸烟增加（或减少）肺癌风险的程度，假设一个假想研究：在大规模随机抽样的总体中同时测量 X、Y、Z。为简化陈述，进一步假设三变量都是二元的，取真（1）或假（0）。表 3.1 给出一个假想数据集：95% 的吸烟者与 5% 的非吸烟者肺中形成高焦油；有焦油沉积的 81% 患肺癌，无焦油的仅 14%；在焦油与无焦油两组内，吸烟者患肺癌的比例都明显高于非吸烟者。

这些结果似乎证明吸烟是肺癌的主要诱因。然而烟草业可能主张表讲述的是另一个故事——吸烟实际上降低肺癌风险。理由是：若决定吸烟，形成焦油沉积的概率为 95%，而不吸烟时为 5%。要评估焦油沉积的效应，分别看两组：吸烟者中，焦油使肺癌率从 90% 降到 85%；非吸烟者中，从 10% 降到 5%。于是无论是否天生渴望尼古丁，都应寻求肺中焦油沉积的保护效应，而吸烟正是获取这种沉积的高效手段。

为解决两种解释的争议，对表 3.1 的数据应用前门公式 (3.29)：计算在吸烟（设 X = 1）与不吸烟（设 X = 0）两种动作下随机选取的人患癌的概率。代入 P(z | x)、P(y | x, z)、P(x) 的相应值得 P(Y = 1 | do(X = 1)) = .4525（3.30），P(Y = 1 | do(X = 0)) = .4975。因此出乎意料的是，数据证明吸烟对健康略有益处。

表 3.1 的数据显然不真实，是为支持基因型理论而特意构造的。但该练习的目的在于展示合理的机制定性假设配合非实验数据如何能产出精确的因果效应量化估计。实际中可预期涉及介导变量的观测研究会反驳基因型理论，例如显示吸烟的介导结果（如焦油沉积）倾向于在吸烟者与非吸烟者中都提高（而非降低）癌症风险。(3.29) 的可估量可用来量化吸烟对癌症的因果效应。

3.4 干预演算（A Calculus of Intervention）

本节建立一组推理规则，把涉及干预与观测的概率语句变换为其他此类语句，从而提供一种句法方法来推导（或验证）关于干预的断言。每条推理规则尊重 do(·) 算子作为修改模型中选定函数的干预的解释。由该解释得出的推理规则集合称为 do 演算。

假设给定因果图 G 的结构，其中一些节点可观测、另一些不可观测。目标是便于形式化地推导因果效应表达式 P(y | x̂)，其中 X、Y 是任意观测变量子集。"推导"意指逐步化简 P(y | x̂) 为等价表达式，包含观测量的标准概率。每当化简可行，X 对 Y 的因果效应即可识别（见定义 3.2.4）。

3.4.1 预备记号（Preliminary Notation）

设 X、Y、Z 是因果 DAG G 中任意不相交的节点集。用 GX 表示从 G 中删去指向 X 成员的箭头得到的图。类似地，用 GX̄ 表示从 G 中删去 X 成员发出的箭头得到的图。同时删去进入与发出的箭头用 GXZ 表示（见图 3.6 示例）。最后，表达式 P(y | x̂, z) ≡ P(y, z | x̂) / P(z | x̂) 代表在 X 由外部干预固定为 x 且（在此条件下）观测到 Z = z 时 Y = y 的概率。

3.4.2 推理规则（Inference Rules）

下列定理陈述所提演算的三条基本推理规则。证明见 Pearl（1995a）。

定理 3.4.1（do 演算的规则） 设 G 是与 (3.2) 定义的因果模型关联的有向无环图，P(·) 为该模型诱导的概率分布。对任意不相交的变量子集 X、Y、Z、W，有以下规则。

规则 1（观测的插入/删除）：若 (Y ⫫ Z | X, W)GX，则 P(y | x̂, z, w) = P(y | x̂, w)（3.31）。

规则 2（动作/观测交换）：若 (Y ⫫ Z | X, W)GXZ，则 P(y | x̂, ẑ, w) = P(y | x̂, z, w)（3.32）。

规则 3（动作的插入/删除）：若 (Y ⫫ Z, X | W)GX, Z(W)，则 P(y | x̂, w) = P(y | x̂, ẑ, w)（3.33），其中 Z(W) 是 GX 中不是任何 W 节点祖先的 Z 节点集。

每条推理规则都源于 "hat" x̂ 算子的基本解释：把连接 X 与其事前父节点的因果机制替换为干预力引入的新机制 X = x。结果是子图 GX 所表征的子模型（Spirtes 等 1993 中称为"操纵图"）。

规则 1 重申 d-分离作为干预 do(X = x) 后的分布中条件独立的有效测试，因此图是 GX。该规则源于：删除系统中某些方程不会在其余扰动项之间引入任何依赖（见 (3.2)）。规则 2 给出一个外部干预 do(Z = z) 对 Y 的效应与被动观测 Z = z 相同的条件。该条件等价于 {X, W} 阻断 GX 中从 Z 到 Y 的所有后门路径，因为 GXZ 保留（且仅保留）这些路径。规则 3 提供引入（或删除）外部干预 do(Z = z) 而不影响 Y = y 概率的条件。该规则的有效性同样源于把干预 do(Z = z) 模拟为删除 Z 对应变量所有方程（故图 GXZ），并把删除限制于 W 节点的 non-祖先，原因见 Pearl（1995a）中对规则 1–3 的证明。

推论 3.4.2 因果效应 q = P(y1,…, yk | x̂1,…, x̂m) 在图 G 表征的模型中可识别，若存在有限变换序列，每步符合定理 3.4.1 中的一条推理规则，把 q 化归为涉及观测量的标准（即无 hat）概率表达式。

规则 1–3 已被证明是完备的，足以推出所有可识别的因果效应（Shpitser 和 Pearl 2006a; Huang 和 Valtorta 2006）。如 3.4.3 节所示，用 hat 记号进行的符号推导比旨在从标准概率表达式中消除潜在变量的代数推导（如 3.3.2 节的 (3.24)）更方便。然而，决定是否存在规则序列以约化任意因果效应表达式这一任务尚未系统化，因此直接图形识别准则更为理想，将在第 4 章发展。

3.4.3 符号推导因果效应：一个例子（Symbolic Derivation of Causal Effects: An Example）

下面演示如何用规则 1–3 推导图 3.5 结构的所有因果效应可估量。图 3.6 显示后续推导所需的子图。

任务 1：求 P(z | x̂) 因为 G 满足规则 2 的适用条件，X ⫫ Z in GX（因为路径 X ← U → Y ← Z 在 Y 处的汇合箭头被阻断），一步即可得到 P(z | x̂) = P(z | x)（3.34）。

注意，在所有这些推导中，图 G 既提供了应用推理规则的许可，又指引了选择正确规则的路径。

3.4.4 用代理实验做因果推理（Causal Inference by Surrogate Experiments）

假设希望学习 X 对 Y 的因果效应，但 P(y | x̂) 不可识别，且出于成本或伦理原因无法用随机实验控制 X。问题是能否通过随机化一个比 X 更易控制的代理变量 Z 来识别 P(y | x̂)。例如若感兴趣评估胆固醇水平（X）对心脏病（Y）的效应，可以进行合理实验：控制受试者饮食（Z），而非直接控制其血液胆固醇水平。

3.5 识别性的图形测试（Graphical Tests of Identifiability）

图 3.7 展示因存在"弓形"模式——一条包含因果链 X → Y 的混杂弧（虚线）——而使 P(y | x̂) 不可识别的简单图。混杂弧代表图中存在仅由未观测变量组成且不含汇合箭头的后门路径。例如图 3.1 中路径 X, Z0, B, Z3 可表示为 X 与 Z3 间的混杂弧。弓形模式代表方程 y = fY(x, u, eY)，其中 U 不可观测且依赖 X。这样的方程不允许识别因果效应，因为 X 与 Y 之间观测依赖的任何部分都可能归因于 U 介导的虚假依赖。

在非参数模型中，向弓形模式添加工具变量 Z（图 3.7(b)）仍不允许识别 P(y | x̂)。这是临床试验分析中的熟悉问题：处理分配（Z）随机化（故没有指向 Z 的链接）但依从性不完全（见第 8 章）。图 3.7(b) 中 X 与 Y 之间的混杂弧代表同时影响受试者处理选择（X）以及受试者对处理的反应（Y）的不可测因素。在这样的试验中，不对处理与反应交互的性质作额外假设，就无法得到 P(y | x̂) 的无偏估计（正如 Imbens 和 Angrist 1994、Angrist 等 1996 的分析所做）。虽然增加的弧 Z → X 允许计算 P(y | x̂) 的界（Robins 1989, sec. 1g; Manski 1990; Balke 和 Pearl 1997），且对特定类型的分布 P(x, y, z)，上下界可能重合（8.2.4 节），但仍无法按定义 3.2.4 的要求对每个正分布 P(x, y, z) 计算 P(y | x̂)。

一般地，在非参数模型中，向因果图添加弧可能阻碍、但永远不会帮助识别因果效应。这是因为这种添加减少了图携带的 d-分离条件；若原图中的因果效应推导失败，在增广图中必然也失败；反之，通过一连串符号变换（如推论 3.4.2）在增广图中成功的任何因果效应推导，在原图中也会成功。

3.5.1 可识别模型（Identifying Models）

图 3.8 展示 X 对 Y 的因果效应可识别（X、Y 是单变量）的简单图。这些模型称为"可识别"是因为它们的结构传递了足够数量的假设（缺失链接）以允许识别目标量 P(y | x̂)。潜在变量在这些图中没有显式画出，而是隐含在混杂弧（虚线）中。任何含潜在变量的因果图都可以转换为等价图：含测量变量之间由箭头与混杂弧互连。该转换对应从 (3.2) 的结构方程中消去所有潜在变量，然后构造新图：每当 Xi 出现在 Xj 的方程中就连一条 Xj → Xi 的箭头，每当同一 e 项同时出现在 fi 与 fj 中就连一条混杂弧。结果是所有未测量变量都是外生且互相独立的图。

观察图 3.8 中的图，可注意若干特征：（1）从因果图删除任何弧或箭头只会帮助识别因果效应，因此在图 3.8 所示图的任何边子图上，P(y | x̂) 仍可识别。同样，向因果图的任何边上引入介导观测变量只会帮助、不会阻碍任何因果效应的识别。因此在图 3.8 的图上加入介导节点后得到的图仍可识别 P(y | x̂)。（2）图 3.8 中的图是极大图：在已有节点对之间引入任何额外弧或箭头都会使 P(y | x̂) 不可识别。注意这与定理 3.6.1（p. 105）一致。（3）虽然图 3.8 多数图含弓形模式，但这些模式都不从 X 发出（这与接下来图 3.9(a) 与 (b) 相反）。一般地，P(y | x̂) 可识别的必要条件是 X 与 X 的某个作为 Y 祖先的子节点之间不存在混杂弧。（4）图 3.8(a) 与 (b) 在 X 与 Y 之间没有后门路径，因此代表处理（X）与响应（Y）之间没有混杂偏倚的实验设计，从而 P(y | x̂) = P(y | x)。类似地，图 3.8(c) 与 (d) 代表观测协变量 Z 阻断 X 与 Y 间所有后门路径的设计（即 X 在 Rosenbaum 与 Rubin 1983 词汇中"给定 Z 条件可忽略"），从而 P(y | x̂) 由对 Z 的标准调整得到，如 (3.19)：P(y | x̂) = ∑z P(y | x, z) P(z)。（5）对图 3.8 的每个图，可通过类似 3.4.3 节的符号推导立即获得 P(y | x̂) 的公式，推导常由图拓扑引导。例如图 3.8(f) 引导以下推导。写 P(y | x̂) = ∑z1, z2 P(y | z1, z2, x̂) P(z1, z2 | x̂)，可见包含 {X, Z1, Z2} 的子图在结构上与图 (e) 相同，只是 (Z1, Z2) 替换了 (Z, Y)。于是 P(z1, z2 | x̂) 可由 (3.43) 得出。类似地，项 P(y | z1, z2, x̂) 可由规则 2 化归为 P(y | z1, z2, x)，因为 (Y ⫫ X | Z1, Z2)GX。因此 P(y | x̂) = ∑z1, z2 P(y | z1, z2, x) P(z1 | x) ∑x′ P(z2 | z1, x′) P(x′)（3.48）。对图 3.8(g) 作类似推导得 P(y | x̂) = ∑z1 ∑z2 ∑x′ P(y | z1, z2, x′) P(x′ | z2) P(z1 | z2, x) P(z2)（3.49）。注意变量 Z3 不出现于 (3.49)，这意味着若仅关心 X 对 Y 的因果效应，则无需测量 Z3。（6）在图 3.8(e)、(f)、(g) 中，P(y | x̂) 的可识别性通过受处理 X 影响的观测协变量 Z 实现（因为 Z 成员是 X 的后代）。这与统计实验文献中反复出现的警告相悖：告诫不要调整受处理影响的伴随观测（Cox 1958; Rosenbaum 1984; Pratt 和 Schlaifer 1988; Wainer 1989）。普遍认为受处理影响的伴随 Z 必须排除在处理总效应分析之外（Pratt 和 Schlaifer 1988）。排除的理由是计算总效应等同于对 Z 积分，这功能上等价于一开始就省略 Z。图 3.8(e)、(f)、(g) 显示，X 的总效应确实是研究目标的情况下，受 X 影响的伴随（如 Z 或 Z1）的测量仍是必要的。不过对这种伴随的调整是非标准的，涉及 (3.19) 标准调整的两步或多步（见 (3.28)、(3.48)、(3.49)）。（7）在图 3.8(b)、(c)、(f) 中，Y 有一个对 Y 的效应不可识别的父节点；尽管如此，X 对 Y 的效应仍可识别。这说明局部可识别不是全局可识别的必要条件。换言之，要识别 X 对 Y 的效应，不必坚持识别 X 到 Y 路径上每一环节。

3.5.2 不可识别模型（Nonidentifying Models）

图 3.9 展示 X 对 Y 的总效应 P(y | x̂) 不可识别的典型图。这些图的值得注意的特征如下：（1）图 3.9 所有图都包含 X 与 Y 之间不可阻断的后门路径，即以指向 X 的箭头结尾且不能被 X 的观测非后代阻断的路径。图中存在这样一条路径的确是 P(y | x̂) 不可识别的必要测试（见定理 3.3.2）。它不是充分测试：图 3.8(e) 显示，后门路径（虚线）不可阻断，P(y | x̂) 仍可识别。（2）P(y | x̂) 不可识别的充分条件是 X 与其在某条 X 到 Y 路径上的某个子节点之间存在混杂弧，如图 3.9(b) 与 (c) 所示。更强的充分条件是图中存在图 3.9 所示的任何一种模式作为边子图。（3）图 3.9(g)（同图 3.7(c)）说明局部可识别不足以保证全局可识别。例如可以识别 P(z1 | x̂)、P(z2 | x̂)、P(y | ẑ1)、P(y | ẑ2)，但不能识别 P(y | x̂)。这是非参数模型与线性模型的主要区别之一；在后者中，所有因果效应可由结构系数决定，而每个系数代表一个变量对其直接后继的因果效应。

3.6.1 限定与推广（Qualifications and Extensions）

本章发展的方法便利了从定性因果假设（编码在图中）与非实验观测的组合中得出定量因果推断。因果假设本身通常无法在非实验研究中检验，除非它们对观测分布施加约束。最常见的约束形式是条件独立，由图中的 d-分离条件传达。另一类约束形式是数值不等式。例如第 8 章将表明，与工具变量（图 3.7(b)）相关的假设可通过条件概率的不等式形式进行可证伪检验（Pearl 1995b）。尽管如此，这些约束只允许检验图中蕴含的因果假设的一小部分；其余假设必须从领域知识证实，要么来自理论考量（例如气压下降不会导致下雨），要么来自相关实验研究。例如 Moertel 等（1985）的实验研究反驳了维生素 C 对癌症有效的假设，可在涉及维生素 C 与癌症患者的观测研究中用作实质性假设；在相应图中它被表示为维生素 C 与癌症之间的缺失链接。总之，本章所述方法的主要用途不在于检验因果假设，而在于提供一种把假设表述精确且显式的有效语言。假设因此可被孤立出来以便审议或实验，然后（一旦验证）再与统计数据整合，得出因果效应的定量估计。

本章只在 8.5 节简要考虑抽样变异性这一重要议题。因果效应可估量的数学推导应被视为向这些可估量补充置信区间与显著性水平（如传统对照实验分析）的第一步。不过应指出，获得因果效应的非参数可估量并不意味着在研究的估计阶段应回避参数形式。例如若高斯、零均值扰动与可加交互的假设合理，则 (3.28) 的可估量可转化为乘积形式 E(Y | x̂) = rZX rYZ·X x，其中 rYZ·X 是标准化回归系数（5.3.1 节）；估计问题于是化归为估计回归系数（如通过最小二乘）。更精密的估计技术见 Rosenbaum 和 Rubin（1983）、Robins（1989, sec. 17）以及 Robins 等（1992, pp. 331–3）。例如当调整协变量维数高时，Rosenbaum 和 Rubin（1983）的"倾向得分"方法很有用（11.3.5 节）。Robins（1999）表明，比起估计调整公式 (3.19) 的个别因子，往往用 P(y | x̂) = ∑z P(x, y, z) / P(x | z) 更有利，其中事前分布保持未因子化。然后可以分别估计分母 P(x | z)，用该估计的倒数作为个体样本的权重，把加权样本视为从事后分布 P(y | x̂) 随机抽取。事后参数，例如 ∂/∂x E(Y | x̂)，于是可用普通最小二乘估计。该方法在带时变协变量的纵向研究中尤其有利，如 3.2.3 节（见 (3.18)）与 4.4.3 节讨论的问题。

本章所提方法的若干推广值得注意。首先，原子干预的识别分析可推广到复杂的时变策略，其中受控变量集 X 按某函数或随机策略对协变量集 Z 作响应，如 3.2.3 与 4.4.3 节。第 4 章 4.4.3 节显示，识别这种策略的效应需要在相应图中的一系列后门条件。其次，推广涉及干预演算（定理 3.4.1）到非递归模型，即涉及有向环或反馈环的因果图。用"擦除"模型方程（定义 3.2.1）来定义因果效应这一基本做法仍可推广到非递归系统（Strotz 和 Wold 1960; Sobel 1990），但需处理两个问题。第一，识别分析必须保证剩余子模型的稳定性（Fisher 1970）。第二，DAG 的 d-分离准则必须扩展到环图。d-分离在非递归线性模型（Spirtes 1995）以及涉及离散变量的非线性系统（Pearl 和 Dechter 1996）中的有效性已建立。但在环状非线性系统中，因果效应可估量的计算更难，因为 P(y | x̂) 化归为无 hat 表达式可能需要解非线性方程。第 7 章 7.2.1 节展示非递归线性系统中策略与反事实的评估（也见 Balke 和 Pearl 1995a）。第三，推广涉及干预演算（定理 3.4.1）到数据非 i.i.d. 抽样得到的情形。可以设想一个医生，仅在先前患者中存活比例低于某阈值时才给新患者开某种治疗。这种情况下，需要从非独立样本估计因果效应 P(y | x̂)。Vladimir Vovk（1996）给出了在非 i.i.d. 抽样下定理 3.4.1 规则适用的条件，并把三条推理规则表达为逻辑产生式系统。

3.6.2 图作为一种数学语言（Diagrams as a Mathematical Language）

把实质性背景知识纳入概率推断的好处早在 Thomas Bayes（1763）和 Pierre Laplace（1814）时就被认识到，其在复杂统计分析的解释中的关键作用也被大多数现代统计学家普遍认可。然而用于表达背景知识的数学语言一直处于相当可怜的发展状态。

传统上，统计学家只认可一种把实质性知识与统计数据结合的方式：对分布参数赋予主观先验的贝叶斯方法。要在该框架内纳入因果信息，朴素的因果陈述（如"Y 不受 X 影响"）必须转化为能够接收概率值的句子或事件（如反事实）。例如要传达"泥不导致雨"这一无害假设，就必须用一个相当不自然的表达，说反事实事件"若不泥则雨"的概率与"若泥则雨"的概率相同。确实，Neyman 与 Rubin 的潜在结果方法正是这样取得统计合法性的：因果判断被表达为涉及反事实变量的概率函数约束（见 3.6.3 节）。

因果图提供了把数据与因果信息结合的另一种语言。该语言通过接受朴素因果陈述为其基本原语而简化了贝叶斯路线。这种仅指明感兴趣的变量之间是否存在因果连接的陈述，在日常话语中常用，为科学家交流经验与组织知识提供了自然方式。可以预期，因果图语言将在需要大量领域知识的问题中找到应用。

该语言并非新生。在社会科学与计量经济学中，用图与结构方程模型传递因果信息已相当流行。但统计学家通常觉得这些模型可疑，或许是因为社会科学家与计量经济学家未能给出其模型实证内容的明确定义——即指定（无论假设性的）实验条件，其结果由给定结构方程约束。（第 5 章讨论社会科学与经济学中结构方程的历史。）结果是，连"结构系数"或"缺失链接"这样基本概念也成为严重争议（Freedman 1987; Goldberger 1992）与误读（Whittaker 1990, p. 302; Wermuth 1992; Cox 与 Wermuth 1993）的对象。

在很大程度上，这种争议与误交流的历史源于缺乏用于定义因果建模基本概念的充分数学记号。例如，标准概率记号无法表达结构方程 y = bx + eY 中系数 b 的实证内容，即使准备假设 Y（未观测量）与 X 不相关。分析者从方程中排除不"直接影响"Y 的变量这一决定，也无法赋予任何概率意义。

本章发展的记号赋予这些（因果）概念以清晰的实证解释，因为它允许精确指定在给定实验中被保持常量的量与仅被测量的量。（这一区分的必要性已被许多研究者认识到，最著名的是 Pratt 和 Schlaifer 1988 以及 Cox 1992。）b 的含义就是 ∂/∂x E(Y | x̂)，即 Y 的期望相对 x 的变化率，实验中外力把 X 固定为 x。这一解释无论 eY 与 X 是否相关（例如通过另一方程 x = ay + ex）都成立。类似地，分析者决定方程中应包含哪些变量，可基于假想对照实验：当其他变量 (SYZ) 被固定时，若（对每个 eY 水平）Z 对 Y 没有影响，则把 Z 排除在 Y 的方程之外；这意味着 P(y | ẑ, ŝYZ) = P(y | ŝYZ)。具体而言，被排除在方程 y = bx + eY 之外的变量不是在给定 X 测量下与 Y 条件独立，而是在给定 X 设置下与 Y 因果无关。"扰动项" eY 的操作含义同样被祛魅：eY 定义为差 Y − E(Y | ŝY)。两个扰动项 eX 与 eY 相关当且仅当 P(y | x̂, ŝXY) ≠ P(y | x, ŝXY)，等等（见第 5 章 5.4 节进一步阐述）。

hat 记号提供的这些区分阐明了结构方程的实证基础，应使因果模型更易被实证研究者接受。此外，由于大多数科学知识是围绕"固定 X"而非"条件化 X"的操作组织的，本章发展的记号与演算应为科学家提供传达实质性信息并推断其逻辑后果的有效手段。

3.6.3 从图到潜在结果的翻译（Translation from Graphs to Potential Outcomes）

本章使用两种因果信息表示：图与结构方程，前者是后者的抽象。两者近百年来都富有争议。一方面，计量经济学家与社会科学家接受了这些建模工具，但仍在质疑与争论他们所估计参数的因果内容（见 5.1 与 5.4 节）；结果，结构模型在政策制定语境下的使用常被怀疑。统计学家大体上拒绝这两种表示，认为其有问题（Freedman 1987）甚至无意义（Wermuth 1992; Holland 1995），在被要求传达因果信息时，有时会诉诸 Neyman–Rubin 潜在结果记号（Rubin 1990）。第 7 章 7.4.4 节给出结构与潜在结果方法关系的详细形式分析，并证明它们的数学等价性——一者的定理蕴含另一者的定理。本节着重它们的方法论关键差异。

潜在结果框架中分析的原语是基于单元（unit）的响应变量，记作 Y(x, u) 或 Yx(u)，读作："在单元 u 中，若 X 为 x，则 Y 取的值。"这一反事实表达式在结构方程模型中有形式解释。考虑含一组方程 xi = fi(pai, ui)（i = 1,…, n）的结构模型 M，如 (3.4)。设 U 是背景变量向量 (U1,…, Un)，X 与 Y 是两个不相交的观测变量子集，Mx 是通过用 X = x 替代 X 成员对应方程而创建的子模型（如同定义 3.2.1）。Y(x, u) 的结构解释为 Y(x, u) = YMx(u)（3.51）。即 Y(x, u) 是在 U = u 的实现下子模型 Mx 中 Y 的（唯一）解。虽然"单元"一词在潜在结果文献中通常代表总体中某个具体个体的身份，但单元也可视为刻画该个体的属性集、研究中的实验条件、一天中的时间等——所有这些在结构建模中都被表示为 u 向量的分量。事实上，对 U 的唯一要求是：（i）它代表足够多背景因素，使内生变量间关系确定化；（ii）数据由从 P(u) 抽取的独立样本组成。实验中个体的身份通常已足以满足此要求，因为它代表该个体的解剖与基因构成，这些通常足以确定该个体对处理或其他感兴趣项目的反应。

(3.51) 把"在单元 u 中若 X 为 x 则 Y 取的值"这一不透明的英语短语，与把 X 变化转化为 Y 变化的物理过程之间建立了关键的形式连接。子模型 Mx 的形成显化了假想短语"若 X 为 x"如何实现，以及什么过程必须让步使 X = x 成为现实。

有了 Y(x, u) 的解释，对比潜在结果与结构框架下的因果推断方法是有教益的。若把 U 视为随机变量，则反事实 Y(x, u) 的值也成为随机变量，记作 Y(x) 或 Yx。潜在结果分析把观测分布 P(x1,…, xn) 想象为增广概率函数 P 的边缘分布，P 定义在观测与反事实变量上。关于因果效应的查询（在本章结构分析中写作 P(y | x̂)）被表达为感兴趣反事实变量的边缘分布查询 P*(Y(x) = y)。新假设实体 Y(x) 被当作普通随机变量处理；例如假设它们服从概率演算公理、条件化定律与条件独立公理。此外，这些假设实体被假设通过一致性约束（Robins 1986）与观测变量相连，例如 X = x ⇒ Y(x) = Y（3.52），它说明：对每个 u，若 X 的实际值为 x，则若 X 为 x 时 Y 取的值等于 Y 的实际值。因此，结构方法把干预 do(x) 视为改变模型（与分布）但保持所有变量不变的操作，而潜在结果方法把 do(x) 下的 Y 视为一个不同的变量 Y(x)，与 Y 松散地通过 (3.52) 等关系相连。第 7 章用 Y(x, u) 的结构解释显示，把反事实在所有方面当作随机变量处理确实是合法的，且一致性约束（如 (3.52)）作为结构解释的定理导出，无需考虑其他约束。

为传达实质性因果知识，潜在结果分析者必须把因果假设表达为 P* 的约束，通常是涉及反事实变量的条件独立断言。例如要传达在不完全依从的随机临床试验中（见图 3.7(b)）受试者对处理（X）的反应（Y）与处理分配（Z）统计独立这一理解，潜在结果分析者会写 Y(x) ⫫ Z。类似地，要传达分配随机化从而与受试者如何依从分配无关，潜在结果分析者会使用独立性约束 Z ⫫ X(z)。

这一类型约束的集合有时足以对所关心的查询给出唯一解；另一些情况下只能获得解的界。例如若可以合理假设协变量集 Z 满足条件独立 Y(x) ⫫ X | Z（3.53）（Rosenbaum 与 Rubin 1983 称为"条件可忽略"），则因果效应 P(Y(x) = y) 可由 (3.52) 直接计算，得到 (3.54) 的等价变换：P(Y(x) = y) = ∑z P(Y(x) = y | z) P(z) = ∑z P(Y(x) = y | x, z) P(z) = ∑z P(Y = y | x, z) P(z) = ∑z P(y | x, z) P(z)。最后一个表达式不含反事实量（故可从 P 去掉星号），与从后门准则得到的调整公式 (3.19) 完全一致。然而条件可忽略的假设（(3.53)）——推导 (3.54) 的关键——并不容易理解或断定。用实验隐喻重述，这一假设读作：具有属性 Z 的个体对处理 X = x 的反应方式，与该个体实际接收的处理独立。

3.6.2 节解释了为何这种方法可能吸引传统统计学家，尽管引出关于反事实依赖的判断极其困难且容易出错：与其为因果表达构造新词汇与新逻辑，潜在结果框架中所有数学操作都在概率演算的安全范围内进行。其缺陷在于需要用反事实变量之间的独立性来表达朴素因果知识。当反事实变量不被视为更深层过程模型的副产品时，难以断定所有相关反事实独立性判断是否都已阐明、已阐明的判断是否冗余、或这些判断是否自洽。可用以下从图到潜在结果的翻译使这类反事实判断的引出系统化（见 7.1.4 节更多关系）。

图把实质性信息编码在方程与概率函数 P(u) 两处：前者编码为缺失箭头，后者编码为缺失虚弧。每个父子族 (PAi, Xi) 在因果图 G 中对应模型 M 中 (3.50) 的一个方程。因此缺失箭头编码排除假设，即把被排除的变量加入方程不会改变该方程所描述假想实验的结果。缺失虚弧编码两个或多个方程中扰动项之间的独立性。例如节点 Y 与节点集 {Z1,…, Zk} 之间缺失虚弧意味着对应背景变量 UY 与 {UZ1,…, UZk} 在 P(u) 中独立。这些假设可以用两条简单规则翻译为潜在结果记号（Pearl 1995a, p. 704）；第一条解释图中缺失的箭头，第二条解释缺失的虚弧。

排除限制：对每个有父节点 PAY 的变量 Y 与每个与 PAY 不相交的变量集 S，有 Y(paY) = Y(paY, s)（3.55）。
独立性限制：若 Z1,…, Zk 是任何不通过虚弧与 Y 相连的节点集，则 Y(paY) ⫫ {Z1(paZ1),…, Zk(paZk)}（3.56）。

独立性限制把 UY 与 {UZ1,…, UZk} 之间的独立性翻译为对应潜在结果变量之间的独立性。这源于以下观察：一旦设置它们的父节点，{Y, Z1,…, Zk} 中的变量与它们对应方程中的 U 项呈函数关系。作为例子，图 3.5 的模型展示以下父节点集：PAX = ∅、PAZ = {X}、PAY = {Z}（3.57）。于是排除限制翻译为：Z(x) = Z(y, x)（3.58）；X(y) = X(x, y) = X(z) = X（3.59）；Y(z) = Y(z, x)（3.60）；Z 与 {Y, X} 之间缺失虚弧翻译为独立性限制 Z(x) ⫫ {Y(z), X}（3.61）。给定 P 上的足够多此类限制，分析者尝试用标准概率演算与把反事实变量与其可测对应物耦合的逻辑约束（如 (3.52)）计算因果效应 P(Y(x) = y)。这些约束可用作公理或推理规则，尝试把形式 P(Y(x) = y) 的因果效应表达式变换为只含可测变量的表达式。当找到这样的变换时，相应因果效应可识别，因为 P 化归为 P。

自然出现的问题是：潜在结果分析者使用的约束是否完备——即是否足以推出关于因果过程、干预与反事实的每个有效陈述。要回答此问题，反事实陈述的有效性必须相对更基本的数学对象（如可能世界（1.4.4 节）或结构方程（(3.51)）定义。在标准潜在结果框架中，完备性问题保持开放，因为 Y(x, u) 被当作原始概念，而 (3.52) 等一致性约束虽然对英语表达"若 X 为 x"看起来合理，但并非从更深层数学对象推出。完备性问题在第 7 章得到解决，其中从 (3.51) 给 Y(x, u) 的结构语义导出充要条件公理集。

评估结构方程与潜在结果模型的历史发展，不能过分强调结构方程相对潜在结果模型所提供的概念清晰性的重要性。读者可通过尝试判断 (3.61) 在熟悉情形下是否成立来体会这种重要性。该条件读作："若 X 为 x，则 Z 取的值与 X 及若 Z 为 x 则 Y 取的值联合独立。"（在结构表示中，该句读作："Z 与 X 或 Y 都不共享原因，除了 X 本身，如图 3.5 所示。"）想到要表达、辩护与管理这种形式的反事实关系，就可以解释为何因果推断事业目前在普通流行病学家与统计学家中享有如此敬畏与绝望的待遇——以及为何大多数计量经济学家与社会科学家继续使用结构方程而非 Holland（1988）、Angrist 等（1996）与 Sobel（1998）所主张的潜在结果替代方案。另一方面，潜在结果记号提供的代数机器一旦问题被恰当形式化，可在精化假设、推导反事实概率以及验证结论是否从前提推出方面相当强大——这将在第 9 章演示。(3.51)–(3.56) 给出的翻译是统一两派的关键，应帮助研究者结合两种方法的最佳特性。

3.6.4 与 Robins 的 G 估计的关系（Relations to Robins's G-Estimation）

在潜在结果框架中进行的研究中，最接近本章结构分析精神的是 Robins 关于"可因果解释的结构树图"的工作（Robins 1986, 1987）。Robins 首先意识到 Neyman 的反事实记号 Y(x) 作为因果推断通用数学语言的潜力，并用它把 Rubin（1978）的"时不变处理"模型推广到含直接与间接效应以及时变处理、伴随变量与结果的研究。

Robins 考察时序有序的离散随机变量集 V = {V1,…, VM}（如图 3.3），并问：在何种条件下，可以识别控制策略 g: X = x 对属于 V \ X 的结果 Y 的效应，其中 X = {X1,…, XK} ⊆ V 是时序有序且可操纵的处理变量。X = x 对 Y 的因果效应表达为概率 P(y | g = x) ≡ P(Y(x) = y)，其中反事实变量 Y(x) 代表若处理变量 X 为 x，则结果变量 Y 取的值。

Robins 证明：若 X 的每个分量 Xk"在给定过去的情况下是随机分配的"——按以下方式阐明的概念，则 P(y | g = x) 可从分布 P(y) 识别。设 Lk 是 Xk−1 与 Xk 之间出现的变量，L1 为 X1 之前的变量。写 Lk = (L1,…, Lk)，L = LK，Xk = (X1,…, Xk)，定义 X0、L0、V0 恒等于零。若以下关系成立，则称处理 Xk = xk 在给定过去的情况下是随机分配的：(Y(x) ⫫ Xk | Lk, Xk−1 = xk−1)（3.62）。Robins 进一步证明：若 (3.62) 对每个 k 成立，则因果效应由 P(y | g = x) = ∑lk P(y | lK, xK) ∏k=1^K P(lk | lk−1, xk−1)（3.63）给出，他称之为"G-计算算法公式"。该表达式可通过迭代应用 (3.62) 推出，如同 (3.54) 的推导。若 X 是单变量，则 (3.63) 化归为标准调整公式 P(y | g = x) = ∑l1 P(y | x, l1) P(l1)，与 (3.54) 并行。类似地，在图 3.3 的特殊结构下，(3.63) 化归为 (3.18)。

为将此结果放入本章分析的背景，需要关注条件 (3.62)，它促成了 Robins 对 (3.63) 的推导，并问：这种形式上的反事实独立性能否被赋予有意义的图形解释？答案将在第 4 章（定理 4.4.1）给出，其中推导出识别一个计划（即一系列序贯动作）效应的图形条件。该条件读作：P(y | g = x) 可识别并由 (3.63) 给出，若每个动作规避（action-avoiding）后门路径——即不包含指向晚于 Xk 的 X 变量的箭头——从 Xk 到 Y 被 Xk 的某个非后代子集 Lk 阻断。第 11 章 11.4.2 节用例子显示，这一"序贯后门准则"比 (3.62) 给出的更一般。

本章引入的结构分析从新的理论视角支持并推广了 Robins 的结果。首先在技术层面，本分析提供了系统方法来管理 Robins 起始假设 (3.62) 不适用的模型，例子见图 3.8(d)–(g)。其次在概念层面，结构框架代表了从反事实独立性词汇到过程与机制词汇的根本转变，后者是人类知识被编码的语言。前者要求人类肯定 (3.62) 等深奥关系，而后者用缺失链接的鲜明图形术语表达同样关系。Robins 的开创性研究表明，要恰当管理带时变处理的多阶段问题，"可忽略性" (3.53) 这一不透明的条件应被分解为其序贯组成成分。这导致定理 4.4.5 的序贯后门准则。

作者个人回顾与致谢（Personal Remarks and Acknowledgments）

本章叙述的工作源于两个简单想法，它们彻底改变了我对因果性的态度。第一个想法产生于 1990 年夏，那时我正与 Tom Verma 一起工作于"A Theory of Inferred Causation"（Pearl 与 Verma 1991; 也见第 2 章）。我们尝试用函数对应物 xi = fi(pai, ui) 替换父子关系 P(xi | pai)，突然一切都豁然开朗：我们终于有了一个数学对象，可以赋予它物理机制的熟悉性质，而不是我们过去在贝叶斯网络研究中长期使用的那些滑头的认知概率 P(xi | pai)。当时正在写论文的 Danny Geiger 惊讶地问："确定性方程？真确定性？"虽然我们知道确定性结构方程在计量经济学中有悠久历史，但我们当时把这种表示视为过去的遗物。对我们这些 1990 年代初身处 UCLA 的人来说，把贝叶斯网络的语义置于确定性基础上的想法似乎是最大的异端。

第二个简单想法来自 Peter Spirtes 在国际科学哲学大会（瑞典乌普萨拉，1991）的演讲。在他的某张幻灯片中，Peter 展示了变量被操纵时因果图如何变化。对我而言，Peter 那张幻灯片——结合确定性结构方程——是展开因果操纵性解释的钥匙，导致本章描述的大部分探索。我还应该提到另一起促成本章的事件。1993 年初，我读到 Arthur Goldberger 与 Nanny Wermuth 关于结构方程含义的激烈辩论（Goldberger 1992; Wermuth 1992）。我突然意识到经济学家与统计学家之间百年来的紧张源于简单的语义混淆：统计学家把结构方程读为关于 E(Y | x) 的陈述，而经济学家读为 E(Y | do(x))。这就解释了为何统计学家主张结构方程无意义，而经济学家反驳说统计学无实质。我写了一篇技术报告"On the Statistical Interpretation of Structural Equations"（Pearl 1993c），希望看到两派和解拥抱。什么都没发生。辩论中的统计学家继续坚持任何不被解释为 E(Y | x) 的东西就是无意义。而经济学家仍在试图决定他们一直以来要说的是否正是 do(x)。

鼓励的同事在正式渠道得到的功劳远低于他们的实际影响，因为他们对受鼓励者的影响是巨大的。我必须借此机会感谢四位在 do(x) 算子流行之前就看到其清晰性的同事：Steffen Lauritzen、David Freedman、James Robins 与 Philip Dawid。Phil 表现出特殊的勇气，在 Biometrika（Pearl 1995a）——由因果性的最恶对手 Karl Pearson 创立的期刊——发表了我的论文。

第二版后记（Postscript for the Second Edition）

完整识别结果 一个推广本章所有准则的关键识别条件由 Jin Tian 推出。它读作：

定理 3.6.1（Tian 与 Pearl 2002a） 识别因果效应 P(y | do(x)) 的一个充分条件是：X 与它的任何子节点之间不存在双向路径（即完全由双向弧组成的路径）。

值得注意的是，该定理断言：只要 X（在到 Y 的路径上）的每个子节点不能通过双向路径从 X 到达，则无论图多复杂，因果效应 P(y | do(x)) 都可识别。本章讨论的所有识别准则都是该定理所述准则的特例。例如图 3.5 中 P(y | do(x)) 可识别，因为从 X 到 Z（X 的唯一子节点）的两条路径都不是双向的。另一方面图 3.7 中存在从 X 到 Z1 仅穿过双向弧的路径，违反定理 3.6.1 的条件，P(y | do(x)) 不可识别。

注意图 3.8 中的所有图与图 3.9 中的所有图都不满足上述条件。Tian 与 Pearl（2002a）进一步显示该条件对 P(y | do(x)) 的识别既充分又必要，其中 V 包含除 X 外的所有变量。Shpitser 与 Pearl（2006b）建立了识别 P(w | do(z))（W 与 Z 是任意两个集合）的充要条件。随后，对条件干预分布（即 P(y | do(x), z) 类型的表达式，其中 X、Y、Z 是任意变量集合）的可识别性，确立了完整的图形准则（Shpitser 与 Pearl 2006a）。

这些结果构成图形模型中因果效应的完整刻画。它们为我们提供多项式时间算法，以确定在给定半马尔可夫模型中，调用 do(x) 算子的任意量是否被识别，若被识别则该量的可估量是什么。值得注意的是，这些结果的一个推论也陈述 do 演算是完备的，即量 Q = P(y | do(x), z) 被识别当且仅当它可用定理 3.4.1 的三条规则化归为无 do 表达式。Tian 与 Shpitser（2010）提供了这些结果的综合综述。

应用与批评 本章发展概念的介绍性文献见 Pearl（2003c）与 Pearl（2009a）。因果图在流行病学中的应用见 Robins（2001）、Hernán 等（2002）、Hernán 等（2004）、Greenland 与 Brumback（2002）、Greenland 等（1999a, b）、Kaufman 等（2005）、Petersen 等（2006）、Hernández-Díaz 等（2006）、VanderWeele 与 Robins（2007）以及 Glymour 与 Greenland（2008）。前门准则（3.3.2 节）的有趣应用见于社会科学（Morgan 与 Winship 2007）与经济学（Chalak 与 White 2006）。一些"潜在结果"方法的倡导者最抗拒接受图或结构方程作为因果分析的基础；缺乏这些概念工具，他们无法处理协变量选择问题（Rosenbaum 2002, p. 76; Rubin 2007, 2008a），并把重要科学概念斥为"定义不清"、"欺骗性"、"混乱"（Holland 2001; Rubin 2004, 2008b）等。Lauritzen（2004）与 Heckman（2005）批评了这种态度；Pearl（2009a, b, 2010a）阐明了其破坏性后果。同样令人费解的是一些哲学家（Cartwright 2007; Woodward 2003）与计量经济学家（Heckman 2005）的关注，他们认为 do 算子过于局部，无法对复杂现实生活的政策干预建模——这些干预有时同时影响多个机制，且常涉及条件决策、不完全控制与多个动作。这些关注源于把关系的数学定义（如因果效应）与在物理世界中检验该关系的技术可行性混为一谈。虽然 do 算子确实是理想的数学工具（类似于微分学中的导数），但它仍允许我们指定并分析高度复杂的干预策略。读者可在第 4 章找到这种策略的例子，并在第 11 章（11.4.3–11.4.6 与 11.5.4 节）找到进一步讨论。

本章主要结果的路线图 本章三个关键结果是：（1）混杂的控制；（2）策略的评估；（3）反事实的评估。

混杂偏倚的控制问题通过后门条件（定理 3.3.2, pp. 79–80）解决——一个选定协变量集的准则，若对之调整，将得到因果效应的无偏估计。
策略评估问题——从非实验数据预测干预效应——通过 do 演算（定理 3.4.1, pp. 85–86）以及它蕴含的图形准则（定理 3.3.4, p. 83；定理 3.6.1, p. 105）解决。do 演算的完备性意味着任何（无参数）策略评估问题，若不被识别图或等价因果假设集支持，可被证明"不可解"。
最后，(3.51) 为反事实提供形式语义，由此可在科学理论框架内定义并评估反事实的联合概率（见第 7 章）。该语义将使我们在第 8–11 章发展多种反事实分析技术，包括中介公式 (4.17)–(4.18)——一个评估非线性模型因果路径的关键工具。

本章个人批注

本章是 Pearl 论证纲领中最具方法论雄心的一章：在不借助实验的前提下，仅凭因果图结构与观测数据，给出因果效应可识别性的判别准则与显式估计量。读完后的几个具体印象：

第一，do 演算的三条规则（3.31–3.33）形式上极简，但意义深远。规则 2——在干预下与在条件化下等价的判定——本质上是把"是否因果相关"这一直觉压缩为 d-分离测试。规则 3 允许在保持某种不变性的前提下引入或删除干预，是后门公式推广为前门公式的代数核心。读 3.4.3 节的"任务 1–5"特别能感受到这种符号推导的力量：图拓扑直接告诉你在何处可用哪条规则。

第二，对识别性的处理极其严格。定理 3.2.5（马尔可夫模型中只要 PAx 可观测即可识别）几乎是"显然"的，因为干预通过截断因子分解直接消去了 PAx；真正有信息量的是半马尔可夫情形。后门准则（定理 3.3.2）给出标准答案，前门准则（定理 3.3.4）则在更精细的情形下开辟了新路——它告诉我，即便所有直接混杂都不可观测，只要存在受 X 影响但不与 X 共享原因的介导变量 Z，仍可识别。图 3.1 的熏蒸剂例子其实正是这两种准则的混合应用：Z2 与 Z3 都起到某种介导作用，而 Z1 阻断 X → Z2 的后门路径。3.3.3 节的吸烟—焦油—肺癌例子虽然数据是构造的，但其结构完美演示了前门准则的数学机制。

第三，与 Neyman-Rubin 框架的对比（3.6.3 节）是本章的哲学重心。Pearl 用 (3.51) 把潜在结果 Y(x, u) 锚定到结构方程的子模型 Mx 上，把反事实这一看似"形而上"的实体严格地接到可计算的数学对象上。这等价于说："若 X 为 x"这一假想可通过擦除 X 的方程、强制 X = x 而实现。一致性约束 (3.52) 在这一解释下成为可证明的定理，而非额外假设。这一翻译为后续第 7 章把反事实纳入概率演算奠定基础。

第四，与 Robins 的 G-估计的关系（3.6.4 节）让我特别感兴趣。Robins 早在 1986 年就用反事实记号得到 (3.63) 这一 G-计算公式，本质上等价于 (3.18)——动态过程控制例中推导出的策略评估公式。Pearl 把这一结果重新诠释为图上的序贯后门准则，使"在给定过去的情况下是随机分配的"这一抽象条件转化为图形可检验条件。这正是结构框架相对纯潜在结果框架的核心优势之一。

第五，定理 3.6.1（Tian-Pearl）是第二版后记的核心。它的条件——X 与其子节点之间不存在纯双向路径——既充分又必要。我感到惊讶的是这一条件竟然如此简洁：它把本章所有具体准则（后门、前门、工具变量等）都统一为单一图形测试。这说明 do 演算的完备性不是形式上的巧合，而是反映了一个深层的结构事实。

第六，几个具体的疑问留待后面解决：（a）"非识别"情形的边界条件究竟是什么？定理 3.6.1 给出了充要条件，但该定理的证明依赖"删除非 Y 祖先的节点"这一预处理步骤，预处理的合理性需要进一步审视。（b）3.4.4 节的代理实验条件相当宽松——只需 X 截断 Z 到 Y 的路径——但实际中如何判断"截断"？这是个实证问题。（c）3.5.1 节强调"局部可识别不是全局可识别的必要条件"（图 3.8(b)、(c)、(f)），这一现象在非参数模型中相当反直觉，与线性模型形成鲜明对比，值得专门讨论。（d）习题（即表 3.1 后的反 Simpson 计算）虽不涵盖，但实际模拟这个计算有助于理解前门准则的几何意义。

最后，关于历史定位：Pearl 在 3.6 节末的"个人回顾"中提到三个关键时刻——与 Verma 的函数改写、Spirtes 的操纵图、Goldberger-Wermuth 之争。这段个人史让我意识到：do(x) 算子看似"显然"，但其语义基础的建立并非一蹴而就，而是经历了从纯概率表述到机制表述的根本转换。这一转换的成功，让因果推断从哲学辩论中解放出来，成为可计算的科学工具。

与上下章的衔接（一段话）

第 2 章处理的是纯统计问题：给定数据与候选因果图（贝叶斯网络），能否判断哪些边是必要的。这是因果发现的逆问题。第 3 章则反转方向：给定已认可的因果图，能否从中提取因果效应的定量估计。这是因果推理的正问题。第 2 章输出"哪些变量互为因果"，第 3 章输入这些因果关系，输出"干预 X 会如何改变 Y"。两章合起来构成 Pearl 因果框架的核心算法基础：先识别结构，再量化效应。从结构到效应这一跳跃的关键工具是 do 演算——它在不假设函数形式的前提下，把因果查询化归为标准概率查询。第 4 章将沿这一思路进一步处理更复杂的反事实问题，并给出完整识别算法；第 5 章则把分析限制在线性模型下，得到更精细的路径系数解释。本章是 Pearl 把因果推断从纯哲学讨论变为可操作数学工具的转折点。