第05章：Forks, Chains, and Immoralities

作者

本章由 Aleksander Molak 撰写。涉及的图-分布映射理论参考 Lauritzen (1996) Graphical Models、Peters, Janzing & Schölkopf (2017)、Pearl (2009)、Spirtes, Glymour & Scheines (2000) 等经典文献。Markov 等价类（MEC）的来源是 Verma & Pearl (1991)。本节是 Ch 6 d-separation 详述与 Ch 13 因果发现的前置基础。

内容概述

本章把 Ch 4 介绍的"图"翻译成"统计独立性"——这是因果推断与因果发现的双向桥梁。内容分三部分：（1）独立性与条件独立性的概率/图记号（$X \perp\!\!\!\perp_P Y$ vs $X \perp\!\!\!\perp_G Y$），以及四个核心假设：causal Markov condition（$\perp\!\!\!\perp_G \Rightarrow \perp\!\!\!\perp_P$）、faithfulness（$\perp\!\!\!\perp_P \Rightarrow \perp\!\!\!\perp_G$）、causal minimality、causal sufficiency / no hidden confounding；（2）三种基本图结构：chain $A \to B \to C$（$A \perp\!\!\!\perp_G C | B$）、fork $A \leftarrow B \to C$（$A \perp\!\!\!\perp_G C | B$）、collider $A \to B \leftarrow C$（$A \perp\!\!\!\perp_G C$ 无条件独立，但 $A \not\!\perp\!\!\!\perp_G C | B$）——前两者条件独立性相同，只有 collider 反向，这是约束型因果发现能识别边方向的唯一线索；（3）三结构与 OLS 回归的对应：chain 和 fork 都只有中介变量 $B$ 显著；collider 则两个 parent 都"虚假地"显著——这是 Ch 1 Simpson 悖论与 Ch 3 四模型实验的图论解释。本章末尾引入 Markov Equivalence Class（MEC） / CPDAG 概念——能识别的因果结构通常不是唯一 DAG 而是一个等价类。

核心方程与概念

独立性（定义）： $$P(Y) = P(Y | X), \quad P(X) = P(X | Y)$$ 紧凑记号：$X \perp\!\!\!\perp Y$。独立性的一个直接推论是联合分布可因式分解（Bishop 2006）： $$P(X, Y) = P(X) P(Y)$$
条件独立性： $$X \perp\!\!\!\perp Y | Z \iff P(X, Y | Z) = P(X | Z) P(Y | Z)$$
图独立 vs 分布独立：
$X \perp\!\!\!\perp_P Y$：在分布 $P$ 中独立
$X \perp\!\!\!\perp_G Y$：在图 $G$ 中独立（所有开放路径都被阻断）
因果 Markov 条件（local Markov property）：节点 $V_i$ 在给定其父节点 $\text{PA}(V_i)$ 时与其所有非后代独立。形式上： $$V_i \perp\!\!\!\perp_G V_j \mid \text{PA}(V_i) \quad \forall j \neq i, j \in G(V, E) \setminus (\text{DE}(V_i) \cup \text{PA}(V_i))$$ 直观：给定直接原因，整个系统的剩余部分不再提供关于 $V_i$ 的新信息。
全局 Markov 性质（global Markov property）：当 causal Markov 条件成立时， $$X \perp\!\!\!\perp_G Y | Z \implies X \perp\!\!\!\perp_P Y | Z$$ 局部 Markov、全局 Markov、Markov 分解三个性质等价（Lauritzen 1996, pp. 51-52; Peters et al. 2017, p. 101）。
Faithfulness 假设（Ch 4 的扩展）： $$X \perp\!\!\!\perp_P Y | Z \implies X \perp\!\!\!\perp_G Y | Z$$ 全局 Markov 的反向。Faithfulness 失效的最常见情形：两条影响路径精确抵消（如 $A$ 通过 $B$ 影响 $C$ 的两条路径贡献相等相反）。Neal (2020) pp. 100-101、Peters et al. (2017) pp. 107-108 给出例子。实际工程中最严重的 faithfulness 违反是有限样本下条件独立性检验的统计误差（Uhler et al. 2013）——参数巧合引发的违反在真实数据中罕见。
Causal minimality condition：DAG $G$ 对 $P$ 最小当且仅当 $G$ 诱导 $P$ 但 $G$ 的任何真子图不诱导 $P$。即：删除任何一条边都会改变诱导出的分布。这一条件相当于某种 Ockham 剃刀——避免"额外边不改变 $P$"的退化情形。
Causal sufficiency / no hidden confounding：假设所有相关变量都被观测到，没有未观测的共同原因。这一假设与 causal Markov 条件相关但不等价（Scheines 1996）；多数因果发现算法（PC 算法）依赖此假设。
Chain 结构 $A \to B \to C$： $$A \perp\!\!\!\perp_G C \mid B$$ 控制 $B$（中介）就阻断了 $A$ 与 $C$ 的唯一开放路径。例：collision warning system（obstacle → detector → alarm）；Pearl & Mackenzie (2019) 的 fire → smoke → alarm 例子。
Fork 结构 $A \leftarrow B \to C$： $$A \perp\!\!\!\perp_G C \mid B$$ 控制共同原因 $B$ 后 $A$ 与 $C$ 独立。例：llama on road → detector reaction 与 llama on road → fight-or-flight response。形式 SCM： $$U_A, U_B, U_C \sim \mathcal{N}(0, 1) \text{ (独立)}$$ $$B \coloneqq U_B, \quad A \coloneqq B + U_A, \quad C \coloneqq B + U_C$$ 当 $B = 0$ 时，$A$ 与 $C$ 退化为独立噪声。
Collider 结构 $A \to B \leftarrow C$（immorality / v-structure）： $$A \perp\!\!\!\perp_G C \quad \text{(无条件独立)}$$ $$A \not!\perp!!!\perp_G C \mid B \quad \text{(控制 $B$ 后变成依赖)}$$ 直观：$B$ 是 $A$ 与 $C$ 的"汇合点"。当固定 $B$ 时，$A$ 增加必然导致 $C$ 减少。两个玻璃水 的比喻：把水从 A 杯倒到 C 杯，总量不变时，A 多 C 必少——固定总量（$B$）就引入了 A-C 负相关。骰子例子更直观：$A, C$ 都独立取 1-3 的整数，$B = A + C$；固定 $B = 4$ 时只有 $(1,3), (2,2), (3,1)$ 三种——$A$ 大则 $C$ 必小。
OLS 在三种结构下的回归结果（regress $C$ on $A, B$）：

结构	$A$ 系数	$B$ 系数	解释
Chain $A \to B \to C$	不显著	显著	多重回归计算"在控制 $B$ 之后"的效应——$A$ 对 $C$ 没有直接路径
Fork $A \leftarrow B \to C$	不显著	显著	$A, C$ 通过 $B$ 相关，控制 $B$ 后 $A$ 与 $C$ 独立
Collider $A \to B \leftarrow C$	显著	显著	$A$ 与 $C$ 本来独立，控制 collider $B$ 反而打开虚假关联

注意：collider 情形下 $A$ 与 $C$ 在总体上不相关（Pearson $r \approx 0$），但 OLS 给 $A$ 一个非零系数。这是"虚假关联"在回归上的具体表现——Ch 1 的 Simpson 悖论本质就是 collider 被控制。

Spurious relationships in real life（作者给出的招聘例子）：公司按 coding skills + cooperation ≥ 7 录用员工。假设 coding 与 cooperation 在总体独立；公司内部的员工子样本里，coding 高的人 cooperation 必低，cooperation 高的人 coding 必低——虚假相关。这与控制 hiring status（= coding + cooperation = const）的 collider 结构完全同构。
Markov Equivalence Class（MEC）（Verma & Pearl 1991）：
DAG 集合 $\mathcal{D} = \{G_0, G_1, ..., G_n\}$ 是 Markov 等价的当且仅当它们有相同的 skeleton（无向化版本）且有相同的 collider（v-structure）集。
从 skeleton + colliders 恢复的结构叫 CPDAG（complete partially-directed acyclic graph）。
从 CPDAG 展开所有可能 DAG 得到 MEC。
在某些情形下，单凭约束型方法无法恢复全部边的方向（只有 chain + fork 信息的图就是 CPDAG 的一部分）；此时能得到的最佳结果是 MEC。

关键结论

图独立 $\Leftrightarrow$ 分布独立的双向映射需要 4 个假设联合支撑：causal Markov、faithfulness、causal minimality、causal sufficiency。任一失效都破坏映射的可靠性。
三种基本图结构中，只有 collider 的条件独立性是反向的——这是约束型因果发现（如 PC 算法）能识别边方向的唯一线索。
OLS 回归在 chain/fork 下只有"中介/共同原因"显著，在 collider 下两个 parent 都虚假显著——这一表格是 Ch 1–3 案例的图论总结。
实际中约束型因果发现只能恢复到 CPDAG / MEC（Markov 等价类），不能保证唯一 DAG。接受不确定性比追求唯一 DAG 更现实。
Faithfulness 在大样本下近似成立，但有限样本下的条件独立性检验误差是更现实的失效源（Uhler et al. 2013）。

挑战和开放性问题

MEC 的粒度问题：在变量多时，MEC 可能仍包含指数多个 DAG；如何"挑出最可能的那一个"需要额外先验（sparsity、time order 等）。
条件独立性检验的可信度：在 $D \geq 50$ 时，条件集合 $Z$ 越大，条件独立性检验的 power 越低。PC 算法的高维失效是已知问题。
Faithfulness 的"几乎处处"成立 vs 真实数据：实际中是否存在参数巧合导致 faithfulness 失效，难以预判。一种做法是双重检验：用 d-separation 推独立，再用独立性推 d-separation，两侧结果应一致。
Causal sufficiency 的实践违反：真实数据几乎总存在未观测 confounders。PC 算法在此情形下输出不可靠；FCI（Ch 13）部分处理但分辨率有限。
collider 与 mediation 的混淆：在链 $A \to M \to Y$ 中控制 $M$ 阻断因果路径（good control）；在 collider $A \to C \leftarrow U$ 中控制 $C$ 反而打开虚假关联（bad control）。两者都需要事先知道 $M$ 或 $C$ 在图中的角色——这又回到 causal sufficiency 问题。

个人反思与批判性分析

本章是 Ch 1–4 哲学/概念/图论的综合应用，也是 Ch 6 d-separation 与 Ch 13 因果发现的真正前置。值得讨论的几个层面：

四假设联合支撑的脆弱性：causal Markov 看似温和（"父节点足以屏蔽非后代信息"），但与 faithfulness、minimality、sufficiency 联合才能支撑双向映射。任一失效，工程上看到的都是"PC 算法跑出来一个奇怪的图"——但根因可能在任何一环。Ch 13 的实证案例分析（gCastle / causal-learn）几乎总需要先做假设验证。
collider 教学上的"反直觉"价值：作者用了多个例子（道路 / 太阳眩光 / 玻璃水 / 骰子 / 招聘）来建立 collider 直觉，但学完后我意识到 collider 反直觉的根源是人类默认"控制即帮助去噪"的统计直觉——而 collider 揭示了"控制即引入信息"的反例。这种"反统计直觉"是 Ch 8 介绍 potential outcomes / exchangeability 的入口——因为 Rubin 框架下"控制"的语义更精细。
作者对 Bayesian vs frequentist 的中立：本章的 $\perp\!\!\!\perp$ 概念借用了"信念更新"的贝叶斯语汇（"学习 $X$ 不改变 $Y$ 的信念"），但又同时使用频率派的 $P(X, Y) = P(X)P(Y)$。这是好的——大多数实际工程不挑学派，但读者应意识到：条件独立性在两派里的"意义"不完全相同（frequentist 关心 asymptotic 行为，Bayesian 关心 posterior 更新）。
Causal sufficiency 的隐性违反：作者把它列在"其他假设"里，但实际上多数真实数据违反。一个公司做"治疗效果"分析时，几乎总有未观测的遗传 / 社会经济 / 时间变量。Ch 13 的 FCI 算法（处理潜变量）才是更现实的选择，但其复杂性更高。
Markov equivalence 与 Pearl 因果哲学的张力：Pearl 强调因果方向是物理实在；MEC 告诉我们，在仅有观察数据时，物理方向可能无法唯一识别。这是 Pearl vs frequentist 哲学分歧的具体表现：Pearl 认为应该接受因果不确定性，但坚决反对"因果 = 概率相关"。Ch 13 / 14 的算法都接受 MEC 是不确定性的最小表达。
对个人研究的启发：我在做血管生物力学时，常被"为什么控制某协变量后效应反转"困扰。本章提示我：先画三变量小图（treatment / outcome / 协变量）判断是 chain、fork 还是 collider，再决定是否控制。在 SMC G&R 框架下，血流动力学指标（血压、心率）与结构指标（壁厚、硬度）之间常存在 collider 关系（共同受遗传 / 年龄驱动）——若不识别，直接回归会得到虚假显著。这正是 Ch 3 四模型实验的工程化版本。
Faithfulness 失效的隐藏案例：作者说"参数巧合在真实数据中罕见"——但在物理系统中，参数巧合反而是常态（如电路中的阻抗匹配、力学中的共振频率）。对生物力学数据做因果发现时，必须先用领域知识筛除物理约束下的"巧合依赖"，否则 PC 算法会把这些"巧合"误识为真实因果边。

重要参考文献

[X1] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 本章 causal minimality 与 Markov 性质的来源；Ch 1 的整体图论基础。
[X2] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — 因果 Markov 条件、faithfulness、minimality 的统一论述。
[X3] Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search (2nd ed.). MIT Press — PC 算法的原始来源；faithfulness 的现实性讨论。
[X4] Verma, T., & Pearl, J. (1991). Equivalence and Synthesis of Causal Models. UCLA Technical Report — Markov 等价类 (MEC) 的最早定义。
[X5] Lauritzen, S. L. (1996). Graphical Models. Oxford University Press — local/global Markov 性质等价的形式化证明。
[X6] Uhler, C., Raskutti, G., Bühlmann, P., & Yu, B. (2013). Geometry of the faithfulness assumption in causal inference. The Annals of Statistics, 41(2), 436–463 — faithfulness 失效的几何条件。
[X7] Neal, B. (2020). Introduction to Causal Inference from a Machine Learning Perspective (Lecture notes). https://www.bradyneal.com/Introduction_to_Causal_Inference-Dec17_2020-Neal.pdf — 本章框注多次引用；优秀的因果推断 ML 视角入门讲义。
[X8] Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer — 概率独立性与因式分解的标准教材。
[X9] Pearl, J., & Mackenzie, D. (2019). The Book of Why. Penguin Books — chain 例子（fire → smoke → alarm）的来源。
[X10] Scheines, R. (1996). An Introduction to Causal Inference. Manuscript — causal sufficiency 与 causal Markov 条件区分的来源。
[X11] Everington, K. (2020, Jun 2). Video shows Tesla on autopilot slam into truck on Taiwan highway. Taiwan News. https://www.taiwannews.com.tw/en/news/3943199 — 2020 年 6 月 Tesla 自动驾驶撞卡车事故；本章开篇的 chain 例子来源。
[X12] RealRusty (2022). TikTok: Horse vs Tesla object detection. https://bit.ly/HorseVsTesla — 检测器误识（chain 不可靠）的当代例子。

结构	\(A\) 系数	\(B\) 系数	解释
Chain \(A \to B \to C\)	不显著	显著	多重回归计算"在控制 \(B\) 之后"的效应——\(A\) 对 \(C\) 没有直接路径
Fork \(A \leftarrow B \to C\)	不显著	显著	\(A, C\) 通过 \(B\) 相关，控制 \(B\) 后 \(A\) 与 \(C\) 独立
Collider \(A \to B \leftarrow C\)	显著	显著	\(A\) 与 \(C\) 本来独立，控制 collider \(B\) 反而打开虚假关联