第06章：Nodes, Edges, and Statistical (In)dependence

作者

本章由 Aleksander Molak 撰写。Part 2 的开篇章节，承接 Ch 1–5 的基础概念，进入"因果推断"的工程化。涉及 do-calculus 的三规则（Pearl 2009; Shpitser & Pearl 2006 证明其完备性）、back-door 与 front-door 准则（Peral, Glymour & Jewell 2016）、工具变量（IV; Hernan & Robins 2020）。代码用 DoWhy 之前的 sklearn LinearRegression + 自定义 SCM（GPSMemorySCM 类）。

内容概述

本章是 Part 2 的核心，从图论过渡到可识别的因果效应。内容分四块：（1）d-separation 的形式化定义——路径阻断的两条规则（chain/fork 控制中间节点；collider 不控制节点也不控制其后代）；（2）estimand vs estimator 的概念区分（"what" vs "how"），以及 causal effect rule $P(Y=y|\mathrm{do}(X=x)) = \sum_z P(Y=y|X=x, \text{PA}=z) P(\text{PA}=z)$；（3）back-door criterion（找一组能阻断所有指向 $X$ 的非因果路径的 $\mathcal{Z}$）和 front-door criterion（用中介变量 $Z$ 在 unobserved confounder 存在时仍可识别）；（4）do-calculus 三规则（rule 1：观察可忽略；rule 2：干预可作观察；rule 3：干预可忽略）以及工具变量（IV）——用与 $X$ 相关但不直接影响 $Y$ 的 $Z$ 在 unobserved confounder 下做估计。GPS 导航影响海马体-空间记忆的 case study 贯穿全章作为现实案例。

核心方程与概念

d-separation（形式化）：对三组互不相交的节点 $\mathcal{X}, \mathcal{Y}, \mathcal{Z}$，$\mathcal{X}$ 与 $\mathcal{Y}$ 之间的路径被 $\mathcal{Z}$ 阻断当且仅当：
路径上存在 chain $i \to j \to k$ 或 fork $i \leftarrow j \to k$，且中间节点 $j \in \mathcal{Z}$；或
路径上存在 collider $i \to j \leftarrow k$，且 $j$ 和它的所有后代都不在 $\mathcal{Z}$ 中。直观：chain / fork 用控制来关闭路径；collider 不用控制来保持关闭。信息流是无方向的——这是 confounding 的几何基础。
d-separation 练习（DAGs a-e）：作者给出 5 个逐步复杂的图让读者练习 d-separation。代表性例子：
DAG a（chain $X \to B \to Y$）：控制 $B$ 即可。
DAG b（collider $X \to B \leftarrow Y$）：不需要控制（collider 天然阻断）。
DAG d（混合结构 $X \to A \leftarrow B \to Y$）：最简答案是"不控制"（collider 阻断）；但也可控制 $B$（多余但不损）；不要单独控制 $A$（打开 collider 路径，需同时控制 $B$ 关闭）。
Estimand vs Estimator vs Estimate：
Estimand = 想要估计的量（如 $P(Y=y|\mathrm{do}(X=x))$、平均处理效应 ATE）——"what"。
Estimator = 计算 estimand 的程序（如线性回归、神经网络）——"how"。
Estimate = 在有限样本上算出的具体数值（如 $0.638$）——"具体数字"。
Causal Effect Rule（Pearl, Glymour & Jewell 2016）：对图 $G$ 中变量 $X$ 的父节点 $\text{PA}$： $$P(Y=y | \mathrm{do}(X=x)) = \sum_z P(Y=y | X=x, \text{PA}=z) P(\text{PA}=z)$$ 注意：右端没有 do-算子——这是 back-door 调整的核心思想：把干预问题翻译为条件概率加权平均。
Back-door criterion（Pearl 2009; Pearl, Glymour & Jewell 2016）：$\mathcal{Z}$ 满足 back-door criterion 给定 $(G, X, Y)$ 当且仅当：
$\mathcal{Z}$ 中没有 $X$ 的后代。
$\mathcal{Z}$ 阻断所有从 $X$ 出发的、含有指向 $X$ 的边的路径（即所有 back-door paths）。在 Ice Cream → Drowning 例子里，$\mathcal{Z} = \{\text{TMP}\}$：TMP 不是 ICE 的后代，且 ICE ← TMP → ACC 这条 back-door 路径被 TMP 阻断。等价的 valid estimand 可以多于一个（图 6.7 中控制 $A$ 或 $B$ 或 $A+B$ 都能正确识别 $X \to Y$ 的因果效应）——这在 unobserved confounder 时尤其有用。
Equivalent estimands vs Equal estimates：在有限样本下，不同等价 estimand 给出不完全相同的估计值，但大样本下趋同；差异大通常提示代码错误或模型未收敛。
Front-door criterion（Pearl, Glymour & Jewell 2016）：$\mathcal{Z}$ 满足 front-door criterion 当且仅当：
$\mathcal{Z}$ 完全截断 $X$ 到 $Y$ 的所有有向路径（即 $X \to \mathcal{Z} \to \dots \to Y$）。
$X$ 到 $\mathcal{Z}$ 没有开放的 back-door 路径。
所有从 $\mathcal{Z}$ 到 $Y$ 的 back-door 路径都被 $X$ 阻断。 Front-door 公式（GPS 例子：$X$=GPS usage, $Y$=memory, $Z$=hippocampus volume, $U$=motivation）： $$P(Y=y | \mathrm{do}(X=x)) = \sum_z P(Z=z | X=x) \sum_{x'} P(Y=y | X=x', Z=z) P(X=x')$$ 三个嵌套求和的直观：第一步 $P(Z|X)$ 识别 $X \to Z$ 效应；第二步 $P(Y|X,Z)$ 识别 $Z \to Y$ 效应；第三步乘积链法则恢复 $X \to Y$ 的总效应。
Front-door 线性捷径（Wright 1920 path analysis）：当模型线性且 front-door 适用时，causal effect = $X \to Z$ 系数 $\times$ $Z \to Y$ 系数 = $-0.6 \times 0.7 = -0.42$。作者实现中 naive estimate $-0.32$ 偏离 22%，front-door estimate $-0.44$ 偏离 ~4%，interventional estimate $-0.42$ 偏离 <1%。
Do-calculus 三规则（Pearl 2009; Shpitser & Pearl 2006 证明完备）：记号 $G_{\underline{X}}$ = 删去 $X$ 所有入边的图；$G_{\bar{X}}$ = 删去 $X$ 所有出边的图；$G_{\underline{X}\bar{Z}}$ = 同时删去 $X$ 入边和 $Z$ 出边；$G_{\overline{X, Z(W)}}$ = 删去 $X$ 入边 + 删去 $Z$ 中非 $W$ 祖先的节点的入边。

Rule 1（observation 可忽略）： $$P(Y=y | \mathrm{do}(X=x), Z=z, W=w) = P(Y=y | \mathrm{do}(X=x), W=w)$$ $$\text{if } (Y \perp\!\!\!\perp Z | X, W)_{G_{\underline{X}}}$$ 即在 mutilated DAG $G_{\underline{X}}$ 中，若 $Y$ 与 $Z$ 在 $X, W$ 条件下独立，则可从条件中删去 $Z$。

Rule 2（intervention 可作 observation）： $$P(Y=y | \mathrm{do}(X=x), \mathrm{do}(Z=z), W=w) = P(Y=y | \mathrm{do}(X=x), Z=z, W=w)$$ $$\text{if } (Y \perp\!\!\!\perp Z | X, W)_{G_{\underline{X}\bar{Z}}}$$

Rule 3（intervention 可忽略）： $$P(Y=y | \mathrm{do}(X=x), \mathrm{do}(Z=z), W=w) = P(Y=y | \mathrm{do}(X=x), W=w)$$ $$\text{if } (Y \perp\!\!\!\perp Z | X, W)_{G_{\overline{X, Z(W)}}}$$

完备性（Shpitser & Pearl 2006）：如果一个因果效应在给定 DAG 中可识别（即存在一致的 statistical estimand），那么 do-calculus 的有限次规则应用能找到它。

Instrumental Variables（IV）三条件（Hernan & Robins 2020）：用 $Z$ 作为工具变量估计 $X \to Y$（$U$ 不可观测）需要：
$Z$ 与 $X$ 关联（不必直接因果，proxy instruments 也可）。
$Z$ 不直接影响 $Y$（除通过 $X$）。
$Z$ 与 $Y$ 无共同原因。线性情形下，causal effect = $\frac{\beta_{Y \sim Z}}{\beta_{Y \sim X}}$（两个回归系数之比，2SLS 的简化形式）。非线性 / 非参数扩展见 Carroll et al. (2004)、Li, Rudin & McCormick (2022)。
GPS 案例的完整 SCM（GPSMemorySCM）： $$U_X \sim \text{TruncNorm}^+(0, 5), \quad U_Y, U_Z \sim \mathcal{N}(0, 2), \quad U \sim \text{TruncNorm}^+(0, 4)$$ $$X \coloneqq U_X + 0.7 U$$ $$Z \coloneqq -0.6 X + 0.25 U_Z$$ $$Y \coloneqq 0.7 Z + 0.25 U$$ 真实 causal effect = $-0.6 \times 0.7 = -0.42$（GPS → 海马体 → 空间记忆）。
London cabbie 研究（Maguire et al. 2000; Woollett & Maguire 2011）：伦敦出租车司机海马体后部体积与驾龄正相关；未通过 "The Knowledge" 考试的司机无此效应。隐含 mediation：驾龄 → 海马体后部 → 空间记忆能力。这是 front-door 适用性的现实证据。

关键结论

d-separation = 图-分布映射的几何操作：chain/fork 控制中间节点、collider 不控制 + 不控制后代。这两条规则对任意 DAG 的任意路径都适用——是 Ch 5 三结构的拓扑推广。
Estimand 是因果推断的"目标"：必须先确定 estimand（用 back-door / front-door / do-calculus 之一），再选 estimator（OLS / DML / IV）——因果推断的工程化顺序与统计推断相反。
Back-door 是最常用的识别准则；front-door 在 unobserved confounder 存在但有完整中介时使用；do-calculus 是二者的完备推广；IV 是 unobserved confounder 存在 + 有合适工具时的退路。
Front-door 估计的现实优势：当关键 confounder 不可观测或采集昂贵时（GPS 例中 motivation 难测），用中介变量（海马体）仍能识别因果效应——但要求 "confounder 不能直接影响 outcome" 这一额外假设。
Do-calculus 的三规则可机械应用：每条规则是 "if-then" 形式，可编程化（DoWhy / EconML 内部算法即是此规则的工程实现）。Shpitser & Pearl (2006) 证明只要效应可识别，三规则必能识别——这是 do-calculus 的"完备性"。
IV 的现实难点：找同时满足 (1)(2)(3) 三个条件的 $Z$ 在实际数据中极难。Mendelian randomization（用基因型作为工具）是为数不多的可信 IV 应用。

挑战和开放性问题

Front-door 假设的严格性：要求 "mediator 不受 confounder 直接影响"——在 GPS 例子中假设 motivation 不能直接影响海马体体积，这是生物学假设，可能不成立（压力/情绪可直接影响海马体可塑性）。
d-separation 与 faithfulness 的双假设：d-separation 只在因果 Markov + faithfulness 都成立时等于分布独立。任一失效时，d-separation 给出的"控制集"可能不准确。
Front-door 在高维时不可扩展：$Z$ 必须完全截断 $X \to Y$ 所有路径——当 $X, Y$ 之间存在多个相互独立的中介时，需要枚举并控制全部，对高维 DAG 不可行。
Do-calculus 的可计算性：三规则虽完备，但手工推演 $N$ 步规则链在 $D \geq 10$ 时极冗长。Shpitser & Pearl (2006) 给出 ID algorithm（自动搜索 do-calculus 序列）——但其工程实现稀缺，DoWhy 仅部分支持。
工具变量在 ML 时代的局限：传统 IV（2SLS/GMM）在线性情形下表现良好，但 ML 特征空间中难以找到"仅影响 $X$ 不影响 $Y$"的工具。Hartford et al. (2017) Deep IV、Li, Rudin & McCormick (2022) 等是前沿方向，但工业部署稀少。
可识别性 vs 可估性：本节讲的都是"在给定假设下因果效应是否可识别"，但识别 ≠ 估计——有限样本下估计可能仍极不稳定（如 IV 在弱工具下 bias 巨大）。

个人反思与批判性分析

本章是 Part 2 的"理论制高点"——d-separation + back-door + front-door + do-calculus + IV 五件套是因果推断工程师的核心工具。值得讨论的几个层面：

Estimand 优先于 Estimator 的范式转换：作者反复强调"先确定 estimand，再选 estimator"——这与统计推断传统（"先选模型/方法，再看能估什么"）正好相反。在工程实践中，这意味着因果推断项目的第一步是画因果图 + 写 estimand 公式，而不是直接 sm.OLS(...)。这一步骤在多数 ML 项目中被跳过——是因果推断项目失败的最高频原因。
Do-calculus 的"完备但难用"：Shpitser & Pearl (2006) 证明三规则完备，意味着任何可识别的因果效应都能用三规则推导出来。但实际工程里这套规则的搜索空间随 DAG 规模指数增长——手工做 5 步规则链需要仔细，10 步以上几乎不可行。ID algorithm（Shpitser & Pearl 2006 + Shpitser, VanderWeele & Robins 2010）是该问题的主流解法，但对循环系统、潜变量系统、functional data 的扩展仍是研究前沿。
Front-door 在医学与社会科学中的"罕见"：作者用 GPS-海马体例子展示 front-door 的优雅，但真实医学/经济数据中很难找到满足 front-door 三个条件的 $Z$——要么 $Z$ 不能完全截断中介路径，要么 confounder 对 outcome 有直接路径。Front-door 在实践中是"美丽的理论"多于"常用的工具"——知道它的存在比用上它更重要。
IV 三条件的"几乎不可能三角"：$Z$ 与 $X$ 强关联、$Z$ 不直接影响 $Y$、$Z$ 与 $Y$ 无共同原因——三个条件同时满足在观察数据中极少。孟德尔随机化（用基因型作为 IV）是少数可信应用，但要求"基因不影响除 $X$ 外的其他 outcome 路径"——这一假设在复杂表型（教育、收入）上常被违反。Hernan & Robins (2020) Ch 16 详细讨论了 IV 的失效模式。
Naive estimate 的 22% 偏差作为"销售"技巧：作者把 naive estimate 与 front-door / experiment 的差距作为因果推断的"价值主张"——这其实是营销性论述。在医学中，naive estimate 的偏差可正可负；front-door 的 4% 偏差是本场景特定的，不应推广为"front-door 总好于 naive"。
"信息流"在图中的非方向性：作者强调 d-separation 控制"信息流"而非"因果流"——这一区别是 Ch 3 四模型实验的几何解释。但"信息流"的物理意义并不清晰：它不是 entropy 也不是 mutual information 的具体积分路径，而是"统计依赖能否穿过"。这一概念在教学中常被滥用——一些教材把"信息流"等同于"因果流"，是 Pearl 严格反对的混用。
对个人研究的启发：我在做血管生物力学时，常被"哪些变量该作为协变量"困扰。本章给出了一个严格的工程流程：(1) 画因果图；(2) 应用 d-separation / back-door 决定控制集；(3) 检查是否需要 front-door（unobserved confounder 存在但有完整中介）；(4) 实在不行用 IV。在 SMC G&R 框架下，管壁硬度 经常是 confounding 与 mediation 同时存在的角色——作为 collider时不应控制（bad control），作为 mediator时视研究问题而定（要 total effect 则控制，要 direct effect 则不控制）。画图是单一最重要步骤。
DoWhy / EconML 的工程化现实：DoWhy 的内部算法实现了 back-door + IV + 部分 do-calculus，但 front-door 自动识别仍未完整支持。EconML 的 DML、DRIV、DR learner 是估计算子，但estimand 步骤仍需用户手动定义——这与作者强调的"先 estimand 后 estimator"哲学一致。

重要参考文献

[X1] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — back-door、front-door 准则与 do-calculus 三规则的来源。
[X2] Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. Wiley — front-door 公式与 causal effect rule 的标准表述。
[X3] Shpitser, I., & Pearl, J. (2006). Identification of conditional interventional distributions. UAI 2006, 437–444 — do-calculus 完备性的证明。
[X4] Shpitser, I., VanderWeele, T., & Robins, J. M. (2010). On the validity of covariate adjustment for estimating causal effects. UAI 2010, 527–536 — covariate adjustment 的有效性条件与 ID algorithm。
[X5] Hernan, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — IV 三条件与 front-door 在流行病学的应用；Ch 16 详述 IV。
[X6] Wright, S. (1920). The Relative Importance of Heredity and Environment in Determining the Piebald Pattern of Guinea-Pigs. PNAS, 6(6), 320–332 — path analysis 的开创性论文；front-door 线性捷径的源头。
[X7] Cunningham, S. (2021). Causal Inference: The Mixtape. Yale University Press — IV 的实践指南与真实案例。
[X8] Carroll, R. J., Ruppert, D., Crainiceanu, C. M., Tosteson, T. D., & Karagas, M. R. (2004). Nonlinear and Nonparametric Regression and Instrumental Variables. JASA, 99(467), 736–750 — 非线性 IV 的早期工作。
[X9] Li, C., Rudin, C., & McCormick, T. H. (2022). Rethinking Nonlinear Instrumental Variable Models through Prediction Validity. JMLR, 23(96), 1–55 — 现代非线性 IV 的代表。
[X10] Dahmani, L., & Bohbot, V. D. (2020). Habitual use of GPS negatively impacts spatial memory during self-guided navigation. Scientific Reports, 10(1), 6310 — GPS-海马体-空间记忆研究；front-door 案例的实证背景。
[X11] Maguire, E. A., Gadian, D. G., Johnsrude, I. S., Good, C. D., Ashburner, J., Frackowiak, R. S., & Frith, C. D. (2000). Navigation-related structural change in the hippocampi of taxi drivers. PNAS, 97(8), 4398–4403 — 伦敦出租车司机海马体研究。
[X12] Woollett, K., & Maguire, E. A. (2011). Acquiring "the Knowledge" of London's layout drives structural brain changes. Current Biology, 21(24), 2109–2114 — 出租车司机纵向研究。
[X13] O'Keefe, J., & Nadel, L. (1978). The Hippocampus as a Cognitive Map. Clarendon Press — 海马体作为认知地图的奠基。
[X14] Malina, S. (2020, March 9). Deriving the front-door criterion with the do-calculus. https://stephenmalina.com/post/2020-03-09-front-door-do-calc-derivation/ — front-door 与 do-calculus 关系的直观推导。
[X15] Sharma, A., & Kiciman, E. (2020). DoWhy: An End-to-End Library for Causal Inference. arXiv:2011.04216 — DoWhy 库的论文；本章 GPSMemorySCM 的工程化实现参考。
[X16] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. JMLR, 12, 2825–2830 — sklearn LinearRegression 引用。
[X17] Griesbauer, E. M., Manley, E., Wiener, J. M., & Spiers, H. J. (2022). London taxi drivers: A review of neurocognitive studies and an exploration of how they build their cognitive map of London. Hippocampus, 32(1), 3–20 — 出租车司机神经认知综述。
[X18] Hejtmánek, L., Oravcová, I., Motýl, J., Horáček, J., & Fajnerová, I. (2018). Spatial knowledge impairment after GPS guided navigation: Eye-tracking study in a virtual town. Int. J. Human-Computer Studies, 116, 15–24 — GPS 导航空间知识损伤的对照研究。