第05章:Forks, Chains, and Immoralities
作者
本章由 Aleksander Molak 撰写。涉及的图-分布映射理论参考 Lauritzen (1996) Graphical Models、Peters, Janzing & Schölkopf (2017)、Pearl (2009)、Spirtes, Glymour & Scheines (2000) 等经典文献。Markov 等价类(MEC)的来源是 Verma & Pearl (1991)。本节是 Ch 6 d-separation 详述与 Ch 13 因果发现的前置基础。
内容概述
本章把 Ch 4 介绍的"图"翻译成"统计独立性"——这是因果推断与因果发现的双向桥梁。内容分三部分:(1)独立性与条件独立性的概率/图记号(\(X \perp\!\!\!\perp_P Y\) vs \(X \perp\!\!\!\perp_G Y\)),以及四个核心假设:causal Markov condition(\(\perp\!\!\!\perp_G \Rightarrow \perp\!\!\!\perp_P\))、faithfulness(\(\perp\!\!\!\perp_P \Rightarrow \perp\!\!\!\perp_G\))、causal minimality、causal sufficiency / no hidden confounding;(2)三种基本图结构:chain \(A \to B \to C\)(\(A \perp\!\!\!\perp_G C | B\))、fork \(A \leftarrow B \to C\)(\(A \perp\!\!\!\perp_G C | B\))、collider \(A \to B \leftarrow C\)(\(A \perp\!\!\!\perp_G C\) 无条件独立,但 \(A \not\!\perp\!\!\!\perp_G C | B\))——前两者条件独立性相同,只有 collider 反向,这是约束型因果发现能识别边方向的唯一线索;(3)三结构与 OLS 回归的对应:chain 和 fork 都只有中介变量 \(B\) 显著;collider 则两个 parent 都"虚假地"显著——这是 Ch 1 Simpson 悖论与 Ch 3 四模型实验的图论解释。本章末尾引入 Markov Equivalence Class(MEC) / CPDAG 概念——能识别的因果结构通常不是唯一 DAG 而是一个等价类。
核心方程与概念
-
独立性(定义): $\(P(Y) = P(Y | X), \quad P(X) = P(X | Y)\)$ 紧凑记号:\(X \perp\!\!\!\perp Y\)。独立性的一个直接推论是联合分布可因式分解(Bishop 2006): $\(P(X, Y) = P(X) P(Y)\)$
-
条件独立性: $\(X \perp\!\!\!\perp Y | Z \iff P(X, Y | Z) = P(X | Z) P(Y | Z)\)$
-
图独立 vs 分布独立:
- \(X \perp\!\!\!\perp_P Y\):在分布 \(P\) 中独立
-
\(X \perp\!\!\!\perp_G Y\):在图 \(G\) 中独立(所有开放路径都被阻断)
-
因果 Markov 条件(local Markov property):节点 \(V_i\) 在给定其父节点 \(\text{PA}(V_i)\) 时与其所有非后代独立。形式上: $\(V_i \perp\!\!\!\perp_G V_j \mid \text{PA}(V_i) \quad \forall j \neq i, j \in G(V, E) \setminus (\text{DE}(V_i) \cup \text{PA}(V_i))\)$ 直观:给定直接原因,整个系统的剩余部分不再提供关于 \(V_i\) 的新信息。
-
全局 Markov 性质(global Markov property):当 causal Markov 条件成立时, $\(X \perp\!\!\!\perp_G Y | Z \implies X \perp\!\!\!\perp_P Y | Z\)$ 局部 Markov、全局 Markov、Markov 分解三个性质等价(Lauritzen 1996, pp. 51-52; Peters et al. 2017, p. 101)。
-
Faithfulness 假设(Ch 4 的扩展): $\(X \perp\!\!\!\perp_P Y | Z \implies X \perp\!\!\!\perp_G Y | Z\)$ 全局 Markov 的反向。Faithfulness 失效的最常见情形:两条影响路径精确抵消(如 \(A\) 通过 \(B\) 影响 \(C\) 的两条路径贡献相等相反)。Neal (2020) pp. 100-101、Peters et al. (2017) pp. 107-108 给出例子。实际工程中最严重的 faithfulness 违反是有限样本下条件独立性检验的统计误差(Uhler et al. 2013)——参数巧合引发的违反在真实数据中罕见。
-
Causal minimality condition:DAG \(G\) 对 \(P\) 最小当且仅当 \(G\) 诱导 \(P\) 但 \(G\) 的任何真子图不诱导 \(P\)。即:删除任何一条边都会改变诱导出的分布。这一条件相当于某种 Ockham 剃刀——避免"额外边不改变 \(P\)"的退化情形。
-
Causal sufficiency / no hidden confounding:假设所有相关变量都被观测到,没有未观测的共同原因。这一假设与 causal Markov 条件相关但不等价(Scheines 1996);多数因果发现算法(PC 算法)依赖此假设。
-
Chain 结构 \(A \to B \to C\): $\(A \perp\!\!\!\perp_G C \mid B\)$ 控制 \(B\)(中介)就阻断了 \(A\) 与 \(C\) 的唯一开放路径。例:collision warning system(obstacle → detector → alarm);Pearl & Mackenzie (2019) 的 fire → smoke → alarm 例子。
-
Fork 结构 \(A \leftarrow B \to C\): $\(A \perp\!\!\!\perp_G C \mid B\)$ 控制共同原因 \(B\) 后 \(A\) 与 \(C\) 独立。例:llama on road → detector reaction 与 llama on road → fight-or-flight response。形式 SCM: $\(U_A, U_B, U_C \sim \mathcal{N}(0, 1) \text{ (独立)}\)$ $\(B \coloneqq U_B, \quad A \coloneqq B + U_A, \quad C \coloneqq B + U_C\)$ 当 \(B = 0\) 时,\(A\) 与 \(C\) 退化为独立噪声。
-
Collider 结构 \(A \to B \leftarrow C\)(immorality / v-structure): $\(A \perp\!\!\!\perp_G C \quad \text{(无条件独立)}\)$ $$A \not!\perp!!!\perp_G C \mid B \quad \text{(控制 \(B\) 后变成依赖)}$$ 直观:\(B\) 是 \(A\) 与 \(C\) 的"汇合点"。当固定 \(B\) 时,\(A\) 增加必然导致 \(C\) 减少。两个玻璃水 的比喻:把水从 A 杯倒到 C 杯,总量不变时,A 多 C 必少——固定总量(\(B\))就引入了 A-C 负相关。骰子例子更直观:\(A, C\) 都独立取 1-3 的整数,\(B = A + C\);固定 \(B = 4\) 时只有 \((1,3), (2,2), (3,1)\) 三种——\(A\) 大则 \(C\) 必小。
-
OLS 在三种结构下的回归结果(regress \(C\) on \(A, B\)):
| 结构 | \(A\) 系数 | \(B\) 系数 | 解释 |
|---|---|---|---|
| Chain \(A \to B \to C\) | 不显著 | 显著 | 多重回归计算"在控制 \(B\) 之后"的效应——\(A\) 对 \(C\) 没有直接路径 |
| Fork \(A \leftarrow B \to C\) | 不显著 | 显著 | \(A, C\) 通过 \(B\) 相关,控制 \(B\) 后 \(A\) 与 \(C\) 独立 |
| Collider \(A \to B \leftarrow C\) | 显著 | 显著 | \(A\) 与 \(C\) 本来独立,控制 collider \(B\) 反而打开虚假关联 |
注意:collider 情形下 \(A\) 与 \(C\) 在总体上不相关(Pearson \(r \approx 0\)),但 OLS 给 \(A\) 一个非零系数。这是"虚假关联"在回归上的具体表现——Ch 1 的 Simpson 悖论本质就是 collider 被控制。
-
Spurious relationships in real life(作者给出的招聘例子):公司按 coding skills + cooperation ≥ 7 录用员工。假设 coding 与 cooperation 在总体独立;公司内部的员工子样本里,coding 高的人 cooperation 必低,cooperation 高的人 coding 必低——虚假相关。这与控制 hiring status(= coding + cooperation = const)的 collider 结构完全同构。
-
Markov Equivalence Class(MEC)(Verma & Pearl 1991):
- DAG 集合 \(\mathcal{D} = \{G_0, G_1, ..., G_n\}\) 是 Markov 等价的当且仅当它们有相同的 skeleton(无向化版本)且有相同的 collider(v-structure)集。
- 从 skeleton + colliders 恢复的结构叫 CPDAG(complete partially-directed acyclic graph)。
- 从 CPDAG 展开所有可能 DAG 得到 MEC。
- 在某些情形下,单凭约束型方法无法恢复全部边的方向(只有 chain + fork 信息的图就是 CPDAG 的一部分);此时能得到的最佳结果是 MEC。
关键结论
- 图独立 \(\Leftrightarrow\) 分布独立的双向映射需要 4 个假设联合支撑:causal Markov、faithfulness、causal minimality、causal sufficiency。任一失效都破坏映射的可靠性。
- 三种基本图结构中,只有 collider 的条件独立性是反向的——这是约束型因果发现(如 PC 算法)能识别边方向的唯一线索。
- OLS 回归在 chain/fork 下只有"中介/共同原因"显著,在 collider 下两个 parent 都虚假显著——这一表格是 Ch 1–3 案例的图论总结。
- 实际中约束型因果发现只能恢复到 CPDAG / MEC(Markov 等价类),不能保证唯一 DAG。接受不确定性比追求唯一 DAG 更现实。
- Faithfulness 在大样本下近似成立,但有限样本下的条件独立性检验误差是更现实的失效源(Uhler et al. 2013)。
挑战和开放性问题
- MEC 的粒度问题:在变量多时,MEC 可能仍包含指数多个 DAG;如何"挑出最可能的那一个"需要额外先验(sparsity、time order 等)。
- 条件独立性检验的可信度:在 \(D \geq 50\) 时,条件集合 \(Z\) 越大,条件独立性检验的 power 越低。PC 算法的高维失效是已知问题。
- Faithfulness 的"几乎处处"成立 vs 真实数据:实际中是否存在参数巧合导致 faithfulness 失效,难以预判。一种做法是双重检验:用 d-separation 推独立,再用独立性推 d-separation,两侧结果应一致。
- Causal sufficiency 的实践违反:真实数据几乎总存在未观测 confounders。PC 算法在此情形下输出不可靠;FCI(Ch 13)部分处理但分辨率有限。
- collider 与 mediation 的混淆:在链 \(A \to M \to Y\) 中控制 \(M\) 阻断因果路径(good control);在 collider \(A \to C \leftarrow U\) 中控制 \(C\) 反而打开虚假关联(bad control)。两者都需要事先知道 \(M\) 或 \(C\) 在图中的角色——这又回到 causal sufficiency 问题。
个人反思与批判性分析
本章是 Ch 1–4 哲学/概念/图论的综合应用,也是 Ch 6 d-separation 与 Ch 13 因果发现的真正前置。值得讨论的几个层面:
- 四假设联合支撑的脆弱性:causal Markov 看似温和("父节点足以屏蔽非后代信息"),但与 faithfulness、minimality、sufficiency 联合才能支撑双向映射。任一失效,工程上看到的都是"PC 算法跑出来一个奇怪的图"——但根因可能在任何一环。Ch 13 的实证案例分析(gCastle / causal-learn)几乎总需要先做假设验证。
- collider 教学上的"反直觉"价值:作者用了多个例子(道路 / 太阳眩光 / 玻璃水 / 骰子 / 招聘)来建立 collider 直觉,但学完后我意识到 collider 反直觉的根源是人类默认"控制即帮助去噪"的统计直觉——而 collider 揭示了"控制即引入信息"的反例。这种"反统计直觉"是 Ch 8 介绍 potential outcomes / exchangeability 的入口——因为 Rubin 框架下"控制"的语义更精细。
- 作者对 Bayesian vs frequentist 的中立:本章的 \(\perp\!\!\!\perp\) 概念借用了"信念更新"的贝叶斯语汇("学习 \(X\) 不改变 \(Y\) 的信念"),但又同时使用频率派的 \(P(X, Y) = P(X)P(Y)\)。这是好的——大多数实际工程不挑学派,但读者应意识到:条件独立性在两派里的"意义"不完全相同(frequentist 关心 asymptotic 行为,Bayesian 关心 posterior 更新)。
- Causal sufficiency 的隐性违反:作者把它列在"其他假设"里,但实际上多数真实数据违反。一个公司做"治疗效果"分析时,几乎总有未观测的遗传 / 社会经济 / 时间变量。Ch 13 的 FCI 算法(处理潜变量)才是更现实的选择,但其复杂性更高。
- Markov equivalence 与 Pearl 因果哲学的张力:Pearl 强调因果方向是物理实在;MEC 告诉我们,在仅有观察数据时,物理方向可能无法唯一识别。这是 Pearl vs frequentist 哲学分歧的具体表现:Pearl 认为应该接受因果不确定性,但坚决反对"因果 = 概率相关"。Ch 13 / 14 的算法都接受 MEC 是不确定性的最小表达。
- 对个人研究的启发:我在做血管生物力学时,常被"为什么控制某协变量后效应反转"困扰。本章提示我:先画三变量小图(treatment / outcome / 协变量)判断是 chain、fork 还是 collider,再决定是否控制。在 SMC G&R 框架下,血流动力学指标(血压、心率)与结构指标(壁厚、硬度)之间常存在 collider 关系(共同受遗传 / 年龄驱动)——若不识别,直接回归会得到虚假显著。这正是 Ch 3 四模型实验的工程化版本。
- Faithfulness 失效的隐藏案例:作者说"参数巧合在真实数据中罕见"——但在物理系统中,参数巧合反而是常态(如电路中的阻抗匹配、力学中的共振频率)。对生物力学数据做因果发现时,必须先用领域知识筛除物理约束下的"巧合依赖",否则 PC 算法会把这些"巧合"误识为真实因果边。
重要参考文献
- [X1] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 本章 causal minimality 与 Markov 性质的来源;Ch 1 的整体图论基础。
- [X2] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — 因果 Markov 条件、faithfulness、minimality 的统一论述。
- [X3] Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search (2nd ed.). MIT Press — PC 算法的原始来源;faithfulness 的现实性讨论。
- [X4] Verma, T., & Pearl, J. (1991). Equivalence and Synthesis of Causal Models. UCLA Technical Report — Markov 等价类 (MEC) 的最早定义。
- [X5] Lauritzen, S. L. (1996). Graphical Models. Oxford University Press — local/global Markov 性质等价的形式化证明。
- [X6] Uhler, C., Raskutti, G., Bühlmann, P., & Yu, B. (2013). Geometry of the faithfulness assumption in causal inference. The Annals of Statistics, 41(2), 436–463 — faithfulness 失效的几何条件。
- [X7] Neal, B. (2020). Introduction to Causal Inference from a Machine Learning Perspective (Lecture notes). https://www.bradyneal.com/Introduction_to_Causal_Inference-Dec17_2020-Neal.pdf — 本章框注多次引用;优秀的因果推断 ML 视角入门讲义。
- [X8] Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer — 概率独立性与因式分解的标准教材。
- [X9] Pearl, J., & Mackenzie, D. (2019). The Book of Why. Penguin Books — chain 例子(fire → smoke → alarm)的来源。
- [X10] Scheines, R. (1996). An Introduction to Causal Inference. Manuscript — causal sufficiency 与 causal Markov 条件区分的来源。
- [X11] Everington, K. (2020, Jun 2). Video shows Tesla on autopilot slam into truck on Taiwan highway. Taiwan News. https://www.taiwannews.com.tw/en/news/3943199 — 2020 年 6 月 Tesla 自动驾驶撞卡车事故;本章开篇的 chain 例子来源。
- [X12] RealRusty (2022). TikTok: Horse vs Tesla object detection. https://bit.ly/HorseVsTesla — 检测器误识(chain 不可靠)的当代例子。