跳转至

第06章:Nodes, Edges, and Statistical (In)dependence

作者

本章由 Aleksander Molak 撰写。Part 2 的开篇章节,承接 Ch 1–5 的基础概念,进入"因果推断"的工程化。涉及 do-calculus 的三规则(Pearl 2009; Shpitser & Pearl 2006 证明其完备性)、back-door 与 front-door 准则(Peral, Glymour & Jewell 2016)、工具变量(IV; Hernan & Robins 2020)。代码用 DoWhy 之前的 sklearn LinearRegression + 自定义 SCM(GPSMemorySCM 类)。

内容概述

本章是 Part 2 的核心,从图论过渡到可识别的因果效应。内容分四块:(1)d-separation 的形式化定义——路径阻断的两条规则(chain/fork 控制中间节点;collider 不控制节点也不控制其后代);(2)estimand vs estimator 的概念区分("what" vs "how"),以及 causal effect rule \(P(Y=y|\mathrm{do}(X=x)) = \sum_z P(Y=y|X=x, \text{PA}=z) P(\text{PA}=z)\);(3)back-door criterion(找一组能阻断所有指向 \(X\) 的非因果路径的 \(\mathcal{Z}\))和 front-door criterion(用中介变量 \(Z\) 在 unobserved confounder 存在时仍可识别);(4)do-calculus 三规则(rule 1:观察可忽略;rule 2:干预可作观察;rule 3:干预可忽略)以及工具变量(IV)——用与 \(X\) 相关但不直接影响 \(Y\)\(Z\) 在 unobserved confounder 下做估计。GPS 导航影响海马体-空间记忆的 case study 贯穿全章作为现实案例。

核心方程与概念

  • d-separation(形式化):对三组互不相交的节点 \(\mathcal{X}, \mathcal{Y}, \mathcal{Z}\)\(\mathcal{X}\)\(\mathcal{Y}\) 之间的路径被 \(\mathcal{Z}\) 阻断当且仅当:
  • 路径上存在 chain \(i \to j \to k\) 或 fork \(i \leftarrow j \to k\),且中间节点 \(j \in \mathcal{Z}\)
  • 路径上存在 collider \(i \to j \leftarrow k\),且 \(j\) 和它的所有后代都不在 \(\mathcal{Z}\) 中。 直观:chain / fork 用控制来关闭路径;collider 不用控制来保持关闭。信息流是无方向的——这是 confounding 的几何基础。

  • d-separation 练习(DAGs a-e):作者给出 5 个逐步复杂的图让读者练习 d-separation。代表性例子:

  • DAG a(chain \(X \to B \to Y\)):控制 \(B\) 即可。
  • DAG b(collider \(X \to B \leftarrow Y\)):不需要控制(collider 天然阻断)。
  • DAG d(混合结构 \(X \to A \leftarrow B \to Y\)):最简答案是"不控制"(collider 阻断);但也可控制 \(B\)(多余但不损);不要单独控制 \(A\)(打开 collider 路径,需同时控制 \(B\) 关闭)。

  • Estimand vs Estimator vs Estimate

  • Estimand = 想要估计的量(如 \(P(Y=y|\mathrm{do}(X=x))\)、平均处理效应 ATE)——"what"。
  • Estimator = 计算 estimand 的程序(如线性回归、神经网络)——"how"。
  • Estimate = 在有限样本上算出的具体数值(如 \(0.638\))——"具体数字"。

  • Causal Effect Rule(Pearl, Glymour & Jewell 2016):对图 \(G\) 中变量 \(X\) 的父节点 \(\text{PA}\): $\(P(Y=y | \mathrm{do}(X=x)) = \sum_z P(Y=y | X=x, \text{PA}=z) P(\text{PA}=z)\)$ 注意:右端没有 do-算子——这是 back-door 调整的核心思想:把干预问题翻译为条件概率加权平均

  • Back-door criterion(Pearl 2009; Pearl, Glymour & Jewell 2016):\(\mathcal{Z}\) 满足 back-door criterion 给定 \((G, X, Y)\) 当且仅当:

  • \(\mathcal{Z}\)没有 \(X\) 的后代
  • \(\mathcal{Z}\) 阻断所有从 \(X\) 出发的、含有指向 \(X\) 的边的路径(即所有 back-door paths)。 在 Ice Cream → Drowning 例子里,\(\mathcal{Z} = \{\text{TMP}\}\):TMP 不是 ICE 的后代,且 ICE ← TMP → ACC 这条 back-door 路径被 TMP 阻断。等价的 valid estimand 可以多于一个(图 6.7 中控制 \(A\)\(B\)\(A+B\) 都能正确识别 \(X \to Y\) 的因果效应)——这在 unobserved confounder 时尤其有用。

  • Equivalent estimands vs Equal estimates:在有限样本下,不同等价 estimand 给出不完全相同的估计值,但大样本下趋同;差异大通常提示代码错误或模型未收敛。

  • Front-door criterion(Pearl, Glymour & Jewell 2016):\(\mathcal{Z}\) 满足 front-door criterion 当且仅当:

  • \(\mathcal{Z}\) 完全截断 \(X\)\(Y\) 的所有有向路径(即 \(X \to \mathcal{Z} \to \dots \to Y\))。
  • \(X\)\(\mathcal{Z}\) 没有开放的 back-door 路径
  • 所有从 \(\mathcal{Z}\)\(Y\) 的 back-door 路径都被 \(X\) 阻断。 Front-door 公式(GPS 例子:\(X\)=GPS usage, \(Y\)=memory, \(Z\)=hippocampus volume, \(U\)=motivation): $\(P(Y=y | \mathrm{do}(X=x)) = \sum_z P(Z=z | X=x) \sum_{x'} P(Y=y | X=x', Z=z) P(X=x')\)$ 三个嵌套求和的直观:第一步 \(P(Z|X)\) 识别 \(X \to Z\) 效应;第二步 \(P(Y|X,Z)\) 识别 \(Z \to Y\) 效应;第三步乘积链法则恢复 \(X \to Y\) 的总效应。

  • Front-door 线性捷径(Wright 1920 path analysis):当模型线性且 front-door 适用时,causal effect = \(X \to Z\) 系数 \(\times\) \(Z \to Y\) 系数 = \(-0.6 \times 0.7 = -0.42\)。作者实现中 naive estimate \(-0.32\) 偏离 22%,front-door estimate \(-0.44\) 偏离 ~4%,interventional estimate \(-0.42\) 偏离 <1%。

  • Do-calculus 三规则(Pearl 2009; Shpitser & Pearl 2006 证明完备):记号 \(G_{\underline{X}}\) = 删去 \(X\) 所有入边的图;\(G_{\bar{X}}\) = 删去 \(X\) 所有出边的图;\(G_{\underline{X}\bar{Z}}\) = 同时删去 \(X\) 入边和 \(Z\) 出边;\(G_{\overline{X, Z(W)}}\) = 删去 \(X\) 入边 + 删去 \(Z\) 中非 \(W\) 祖先的节点的入边。

Rule 1(observation 可忽略): $\(P(Y=y | \mathrm{do}(X=x), Z=z, W=w) = P(Y=y | \mathrm{do}(X=x), W=w)\)$ $\(\text{if } (Y \perp\!\!\!\perp Z | X, W)_{G_{\underline{X}}}\)$ 即在 mutilated DAG \(G_{\underline{X}}\) 中,若 \(Y\)\(Z\)\(X, W\) 条件下独立,则可从条件中删去 \(Z\)

Rule 2(intervention 可作 observation): $\(P(Y=y | \mathrm{do}(X=x), \mathrm{do}(Z=z), W=w) = P(Y=y | \mathrm{do}(X=x), Z=z, W=w)\)$ $\(\text{if } (Y \perp\!\!\!\perp Z | X, W)_{G_{\underline{X}\bar{Z}}}\)$

Rule 3(intervention 可忽略): $\(P(Y=y | \mathrm{do}(X=x), \mathrm{do}(Z=z), W=w) = P(Y=y | \mathrm{do}(X=x), W=w)\)$ $\(\text{if } (Y \perp\!\!\!\perp Z | X, W)_{G_{\overline{X, Z(W)}}}\)$

完备性(Shpitser & Pearl 2006):如果一个因果效应在给定 DAG 中可识别(即存在一致的 statistical estimand),那么 do-calculus 的有限次规则应用能找到它。

  • Instrumental Variables(IV)三条件(Hernan & Robins 2020):用 \(Z\) 作为工具变量估计 \(X \to Y\)\(U\) 不可观测)需要:
  • \(Z\)\(X\) 关联(不必直接因果,proxy instruments 也可)。
  • \(Z\) 不直接影响 \(Y\)(除通过 \(X\))。
  • \(Z\)\(Y\) 无共同原因。 线性情形下,causal effect = \(\frac{\beta_{Y \sim Z}}{\beta_{Y \sim X}}\)(两个回归系数之比,2SLS 的简化形式)。非线性 / 非参数扩展见 Carroll et al. (2004)、Li, Rudin & McCormick (2022)。

  • GPS 案例的完整 SCMGPSMemorySCM): $\(U_X \sim \text{TruncNorm}^+(0, 5), \quad U_Y, U_Z \sim \mathcal{N}(0, 2), \quad U \sim \text{TruncNorm}^+(0, 4)\)$ $\(X \coloneqq U_X + 0.7 U\)$ $\(Z \coloneqq -0.6 X + 0.25 U_Z\)$ $\(Y \coloneqq 0.7 Z + 0.25 U\)$ 真实 causal effect = \(-0.6 \times 0.7 = -0.42\)(GPS → 海马体 → 空间记忆)。

  • London cabbie 研究(Maguire et al. 2000; Woollett & Maguire 2011):伦敦出租车司机海马体后部体积与驾龄正相关;未通过 "The Knowledge" 考试的司机无此效应。隐含 mediation:驾龄 → 海马体后部 → 空间记忆能力。这是 front-door 适用性的现实证据。

关键结论

  • d-separation = 图-分布映射的几何操作:chain/fork 控制中间节点、collider 不控制 + 不控制后代。这两条规则对任意 DAG 的任意路径都适用——是 Ch 5 三结构的拓扑推广。
  • Estimand 是因果推断的"目标":必须先确定 estimand(用 back-door / front-door / do-calculus 之一),再选 estimator(OLS / DML / IV)——因果推断的工程化顺序与统计推断相反
  • Back-door 是最常用的识别准则;front-door 在 unobserved confounder 存在但有完整中介时使用;do-calculus 是二者的完备推广;IV 是 unobserved confounder 存在 + 有合适工具时的退路。
  • Front-door 估计的现实优势:当关键 confounder 不可观测或采集昂贵时(GPS 例中 motivation 难测),用中介变量(海马体)仍能识别因果效应——但要求 "confounder 不能直接影响 outcome" 这一额外假设。
  • Do-calculus 的三规则可机械应用:每条规则是 "if-then" 形式,可编程化(DoWhy / EconML 内部算法即是此规则的工程实现)。Shpitser & Pearl (2006) 证明只要效应可识别,三规则必能识别——这是 do-calculus 的"完备性"。
  • IV 的现实难点:找同时满足 (1)(2)(3) 三个条件的 \(Z\) 在实际数据中极难。Mendelian randomization(用基因型作为工具)是为数不多的可信 IV 应用。

挑战和开放性问题

  • Front-door 假设的严格性:要求 "mediator 不受 confounder 直接影响"——在 GPS 例子中假设 motivation 不能直接影响海马体体积,这是生物学假设,可能不成立(压力/情绪可直接影响海马体可塑性)。
  • d-separation 与 faithfulness 的双假设:d-separation 只在因果 Markov + faithfulness 都成立时等于分布独立。任一失效时,d-separation 给出的"控制集"可能不准确。
  • Front-door 在高维时不可扩展\(Z\) 必须完全截断 \(X \to Y\) 所有路径——当 \(X, Y\) 之间存在多个相互独立的中介时,需要枚举并控制全部,对高维 DAG 不可行。
  • Do-calculus 的可计算性:三规则虽完备,但手工推演 \(N\) 步规则链在 \(D \geq 10\) 时极冗长。Shpitser & Pearl (2006) 给出 ID algorithm(自动搜索 do-calculus 序列)——但其工程实现稀缺,DoWhy 仅部分支持。
  • 工具变量在 ML 时代的局限:传统 IV(2SLS/GMM)在线性情形下表现良好,但 ML 特征空间中难以找到"仅影响 \(X\) 不影响 \(Y\)"的工具。Hartford et al. (2017) Deep IV、Li, Rudin & McCormick (2022) 等是前沿方向,但工业部署稀少。
  • 可识别性 vs 可估性:本节讲的都是"在给定假设下因果效应是否可识别",但识别 ≠ 估计——有限样本下估计可能仍极不稳定(如 IV 在弱工具下 bias 巨大)。

个人反思与批判性分析

本章是 Part 2 的"理论制高点"——d-separation + back-door + front-door + do-calculus + IV 五件套是因果推断工程师的核心工具。值得讨论的几个层面:

  • Estimand 优先于 Estimator 的范式转换:作者反复强调"先确定 estimand,再选 estimator"——这与统计推断传统("先选模型/方法,再看能估什么")正好相反。在工程实践中,这意味着因果推断项目的第一步是画因果图 + 写 estimand 公式,而不是直接 sm.OLS(...)。这一步骤在多数 ML 项目中被跳过——是因果推断项目失败的最高频原因。
  • Do-calculus 的"完备但难用":Shpitser & Pearl (2006) 证明三规则完备,意味着任何可识别的因果效应都能用三规则推导出来。但实际工程里这套规则的搜索空间随 DAG 规模指数增长——手工做 5 步规则链需要仔细,10 步以上几乎不可行。ID algorithm(Shpitser & Pearl 2006 + Shpitser, VanderWeele & Robins 2010)是该问题的主流解法,但对循环系统、潜变量系统、functional data 的扩展仍是研究前沿
  • Front-door 在医学与社会科学中的"罕见":作者用 GPS-海马体例子展示 front-door 的优雅,但真实医学/经济数据中很难找到满足 front-door 三个条件的 \(Z\)——要么 \(Z\) 不能完全截断中介路径,要么 confounder 对 outcome 有直接路径。Front-door 在实践中是"美丽的理论"多于"常用的工具"——知道它的存在比用上它更重要。
  • IV 三条件的"几乎不可能三角"\(Z\)\(X\) 强关联、\(Z\) 不直接影响 \(Y\)\(Z\)\(Y\) 无共同原因——三个条件同时满足在观察数据中极少。孟德尔随机化(用基因型作为 IV)是少数可信应用,但要求"基因不影响除 \(X\) 外的其他 outcome 路径"——这一假设在复杂表型(教育、收入)上常被违反。Hernan & Robins (2020) Ch 16 详细讨论了 IV 的失效模式。
  • Naive estimate 的 22% 偏差作为"销售"技巧:作者把 naive estimate 与 front-door / experiment 的差距作为因果推断的"价值主张"——这其实是营销性论述。在医学中,naive estimate 的偏差可正可负;front-door 的 4% 偏差是本场景特定的,不应推广为"front-door 总好于 naive"。
  • "信息流"在图中的非方向性:作者强调 d-separation 控制"信息流"而非"因果流"——这一区别是 Ch 3 四模型实验的几何解释。但"信息流"的物理意义并不清晰:它不是 entropy 也不是 mutual information 的具体积分路径,而是"统计依赖能否穿过"。这一概念在教学中常被滥用——一些教材把"信息流"等同于"因果流",是 Pearl 严格反对的混用。
  • 对个人研究的启发:我在做血管生物力学时,常被"哪些变量该作为协变量"困扰。本章给出了一个严格的工程流程:(1) 画因果图;(2) 应用 d-separation / back-door 决定控制集;(3) 检查是否需要 front-door(unobserved confounder 存在但有完整中介);(4) 实在不行用 IV。在 SMC G&R 框架下,管壁硬度 经常是 confounding 与 mediation 同时存在的角色——作为 collider时不应控制(bad control),作为 mediator时视研究问题而定(要 total effect 则控制,要 direct effect 则不控制)。画图是单一最重要步骤
  • DoWhy / EconML 的工程化现实:DoWhy 的内部算法实现了 back-door + IV + 部分 do-calculus,但 front-door 自动识别仍未完整支持。EconML 的 DML、DRIV、DR learner 是估计算子,但estimand 步骤仍需用户手动定义——这与作者强调的"先 estimand 后 estimator"哲学一致。

重要参考文献

  • [X1] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — back-door、front-door 准则与 do-calculus 三规则的来源。
  • [X2] Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. Wiley — front-door 公式与 causal effect rule 的标准表述。
  • [X3] Shpitser, I., & Pearl, J. (2006). Identification of conditional interventional distributions. UAI 2006, 437–444 — do-calculus 完备性的证明。
  • [X4] Shpitser, I., VanderWeele, T., & Robins, J. M. (2010). On the validity of covariate adjustment for estimating causal effects. UAI 2010, 527–536 — covariate adjustment 的有效性条件与 ID algorithm。
  • [X5] Hernan, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — IV 三条件与 front-door 在流行病学的应用;Ch 16 详述 IV。
  • [X6] Wright, S. (1920). The Relative Importance of Heredity and Environment in Determining the Piebald Pattern of Guinea-Pigs. PNAS, 6(6), 320–332 — path analysis 的开创性论文;front-door 线性捷径的源头。
  • [X7] Cunningham, S. (2021). Causal Inference: The Mixtape. Yale University Press — IV 的实践指南与真实案例。
  • [X8] Carroll, R. J., Ruppert, D., Crainiceanu, C. M., Tosteson, T. D., & Karagas, M. R. (2004). Nonlinear and Nonparametric Regression and Instrumental Variables. JASA, 99(467), 736–750 — 非线性 IV 的早期工作。
  • [X9] Li, C., Rudin, C., & McCormick, T. H. (2022). Rethinking Nonlinear Instrumental Variable Models through Prediction Validity. JMLR, 23(96), 1–55 — 现代非线性 IV 的代表。
  • [X10] Dahmani, L., & Bohbot, V. D. (2020). Habitual use of GPS negatively impacts spatial memory during self-guided navigation. Scientific Reports, 10(1), 6310 — GPS-海马体-空间记忆研究;front-door 案例的实证背景。
  • [X11] Maguire, E. A., Gadian, D. G., Johnsrude, I. S., Good, C. D., Ashburner, J., Frackowiak, R. S., & Frith, C. D. (2000). Navigation-related structural change in the hippocampi of taxi drivers. PNAS, 97(8), 4398–4403 — 伦敦出租车司机海马体研究。
  • [X12] Woollett, K., & Maguire, E. A. (2011). Acquiring "the Knowledge" of London's layout drives structural brain changes. Current Biology, 21(24), 2109–2114 — 出租车司机纵向研究。
  • [X13] O'Keefe, J., & Nadel, L. (1978). The Hippocampus as a Cognitive Map. Clarendon Press — 海马体作为认知地图的奠基。
  • [X14] Malina, S. (2020, March 9). Deriving the front-door criterion with the do-calculus. https://stephenmalina.com/post/2020-03-09-front-door-do-calc-derivation/ — front-door 与 do-calculus 关系的直观推导。
  • [X15] Sharma, A., & Kiciman, E. (2020). DoWhy: An End-to-End Library for Causal Inference. arXiv:2011.04216 — DoWhy 库的论文;本章 GPSMemorySCM 的工程化实现参考。
  • [X16] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. JMLR, 12, 2825–2830 — sklearn LinearRegression 引用。
  • [X17] Griesbauer, E. M., Manley, E., Wiener, J. M., & Spiers, H. J. (2022). London taxi drivers: A review of neurocognitive studies and an exploration of how they build their cognitive map of London. Hippocampus, 32(1), 3–20 — 出租车司机神经认知综述。
  • [X18] Hejtmánek, L., Oravcová, I., Motýl, J., Horáček, J., & Fajnerová, I. (2018). Spatial knowledge impairment after GPS guided navigation: Eye-tracking study in a virtual town. Int. J. Human-Computer Studies, 116, 15–24 — GPS 导航空间知识损伤的对照研究。