第02章:Judea Pearl and the Ladder of Causation
作者
本章是 Aleksander Molak 撰写的核心概念章节。Judea Pearl 本人是以色列裔美国计算机科学家、ACM 图灵奖得主(2011),其因果推断的开创性工作集中于 1990s–2010s;本章所引用的"Ladder of Causation"框架最早系统化于 Pearl & Mackenzie (2018/2019) The Book of Why。本节作者还参考了 Pearl, Glymour & Jewell (2016) Causal Inference in Statistics: A Primer 的符号系统,以及 Peters, Janzing & Schölkopf (2017) 的对立记法体系。
内容概述
本章建立全书最核心的心智模型——Pearl 的"因果阶梯"(Ladder of Causation)。它把因果问题分为三个层级:第一级 Association(观察/条件概率 \(P(Y|X)\))、第二级 Intervention(干预/do-算子 \(P(Y|\mathrm{do}(X))\))、第三级 Counterfactual(反事实 \(P(Y_{X=0}=1 | X=1, Y_{X=1}=1)\))。每级配对相应的数学工具:rung 1 用条件概率,rung 2 用 do-算子,rung 3 用 abduction-modification-prediction 三步法。本章还通过 bookstore SCM(Python BookSCM 类)和咖啡反事实(CounterfactualSCM 类)两段代码,把抽象概念落到 NumPy / SciPy 可运行的实现。最后一节把 Ladder 框架外推到 RL、半监督学习、生成式模型(GPT-4 / DALL-E 2),指出当前主流 ML 几乎都停留在 rung 1。
核心方程与概念
-
条件概率(rung 1 工具): $\(P(X=x \mid Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)}\)$ 简记为 \(P(X|Y)\)。它只修改我们看待数据的视角,不修改数据生成过程本身;因此不能回答因果方向性问题(如"是 \(X\) 导致 \(Y\),还是反向,或由共同隐变量导致")。
-
Structural Causal Model(SCM)— 全书数据生成语法的基石: $\(A \coloneqq f_A(U_0), \quad B \coloneqq f_B(A, U_1), \quad C \coloneqq f_C(A, B, U_2)\)$ 其中 \(A,B,C\) 是 endogenous(实线圆节点),\(U_0,U_1,U_2\) 是 exogenous(虚线圆节点,又称 noise / root 节点)。\(\coloneqq\) 是"海象算子"(walrus operator),强调关系是有向、非对称的(与普通等号 = 的对称性对立)。绝大多数因果推断方法要求 noise 变量之间互不相关——这一假设在真实数据中常常被违反,是核心困难。
-
Bookstore 例子 SCM: $\(U_0 \sim \mathcal{U}(0,1), \quad U_1 \sim \mathcal{N}(0,1)\)$ $\(A \coloneqq \mathbf{1}\{U_0 > 0.61\}, \quad B \coloneqq \mathbf{1}\{(A + 0.5 U_1) > 0.2\}\)$ 实验测得 \(P(\text{book A} | \text{book B}) = 0.638\),表明 \(A\) 与 \(B\) 有强正向关联;但 SCM 显示 \(B\) 依赖 \(A\) 与 \(U_1\),故 \(A \to B\) 才是因果方向——纯条件概率无法推断此点。
-
干预 / do-算子(rung 2 工具): $\(P(Y=1 \mid \mathrm{do}(X=0))\)$ 干预修改系统本身:固定 \(X\) 到一个值(截断其所有 incoming edges),从而 \(X\) 不再依赖其父节点;这导致三个变化:(i) \(X\) 的子孙节点分布改变,(ii) \(X\) 与其祖先独立,(iii) 二者同时发生(除特殊抵消情形如 \(f(x)=x-x\))。条件作用则不修改任何变量的真实取值。连续 SCM 示例 \(A = U_0, B = 5A + U_1\):在 \(\mathrm{do}(A=1.5)\) 后 \(\mathrm{mean}(B) = 7.69, \mathrm{var}(B) = 0.99\);原分布中 \(\mathrm{mean}(B) = -0.62, \mathrm{var}(B) = 22.67\)。在 \(\mathrm{do}(B)\) 时 \(A\) 与 \(B\) 的相关系数从 0.978 跌到 \(-0.023\)(\(p = 0.821\)),证实因果方向 \(A \to B\)。
-
相关与因果的不对称性:因果不一定意味着传统相关。图 2.4 的 \(X \sim \mathcal{U}(-2, 2), Y = X^2 + 0.2 \mathcal{N}(0,1)\) 因果关系清晰但 Pearson \(r \approx 0\)(非单调关系)。采样限制也会切断因果链(图 2.5:限制 \(X \in (-1.9, 1.9)\))。需用 MIC(Reshef et al. 2011/2015)、HSIC(Gretton et al. 2007)等更通用独立性度量。
-
反事实(rung 3 工具): $\(P(Y_{X=0}=1 \mid X=1, Y_{X=1}=1)\)$ 意为"在你今天喝了咖啡(\(X=1\))且胃不舒服(\(Y_{X=1}=1\))的前提下,假设你没喝咖啡(\(X=0\))感觉会怎样的概率"。注意:等号右侧的 \(X=1, Y_{X=1}=1\) 来自真实世界观测;等号左侧的 \(Y_{X=0}=1\) 指反事实平行世界。这一记法禁止被化简为 do-表达式(Pearl, Glymour, Jewell 2016),是 rung 3 与 rung 2 的本质差异。
-
反事实三步法(abduction-modification-prediction):
- Abduction:用观测证据 \((T=1, Y=1)\) 求解 exogenous \(U\)。示例 SCM \(T \coloneqq t, Y \coloneqq TU + (T-1)(U-1)\) 下,求解得 \(U = \frac{T+Y-1}{2T-1} = 1\)。
- Modification:用反事实值替换处理变量方程。\(T \coloneqq 0\)。
-
Prediction:将 abduction 得到的 \(U=1\) 代入修改后的 SCM,计算 \(Y = 0 \cdot 1 + (0-1)(1-1) = 0\)。 本例确定性结果:你不喝咖啡就不会胃疼。概率版本的延伸见 Pearl, Glymour & Jewell (2016) Ch 4。
-
干预与反事实的关系:Huszár (2019) 指出干预查询 = 反事实查询在总体上的期望——这既揭示了 rung 2 与 rung 3 的不对称,又展示了 Pearl 框架的数学优美性。
-
基础因果推断难题(Holland, 1986):同一对象在同一时间无法被观测到同时接受两种互斥处理——这是反事实不可观测的根本原因,也是 causal inference 与 statistical inference 的哲学分水岭。
关键结论
- Ladder of Causation 严格区分三个层级:观察(rung 1,条件概率)、干预(rung 2,do-算子)、反事实(rung 3,反事实符号 \(Y_{X=x}\))。每一级都不能被低一级的方法可靠地回答。
- 条件作用 \(\neq\) 干预:前者只改分布的视图,后者改系统本身。混淆二者是医学/政策判断中常见的错误来源。
- 即便因果关系存在,Pearson \(r\) 等线性相关指标也可能为 0(非单调函数、采样偏差);非单调因果需 MIC / HSIC 等更广义独立性度量。
- 反事实可计算,但前提是 SCM 已被完全指定(所有相关函数 + 观测主体的 \(U\) 值)。在 abduction 步用观测反求 \(U\) 是其工程化关键。
- 多数当代 ML(GPT-3/4、DALL-E 2、LaMDA 等)停留在 rung 1:能产生强关联预测但缺乏因果世界模型;即便 GPT-4 偶尔正确回答因果/反事实问题,其泛化能力仍有限(详见 Ch 11)。
- RL 与因果的关系是"部分 rung 2":Bottou et al. (2013) 证明 bandit 是因果模型的特例;但 Lee & Bareinboim (2018) 表明没有显式因果建模时部分 bandit 仍非最优;MuZero 等 model-based RL 也可能因 confounding 受损。
- 半监督/无监督学习可借助信息论非对称性(Sgouritsa et al. 2015; Peters et al. 2017)和表示解缠(Berrevoets et al. 2023)部分去 confounding,介于 rung 1 与 rung 2 之间。
挑战和开放性问题
- exogenous 变量独立性假设:SCM 框架要求 noise 变量互不相关;现实中很难验证。这是 causal inference 在高维数据上的根本瓶颈之一。
- RCT 的局限性:RCT 是干预的"金标准",但只能回答 rung 2 问题(相对疗效),无法回答 rung 3 问题("如果我早治会怎样?""两个相近疗效的药物哪个更适合这个具体病人?")。RCT 也常因伦理、成本、不可逆性(移民政策、终身用药)不可执行。
- rung 3 量化与法律/政策耦合:反事实在法律("若非被告疏忽,受害人会如何?")、政策("若不推出某政策,经济会如何?")领域需求强烈但缺乏统一可计算的工业级框架。
- 大模型是否构成 rung 2?:作者承认 GPT-4 等有时能正确回答因果/反事实问题,但泛化性差。如何把 LLM 的"模式匹配 + 概率推理"与正式因果框架融合仍是开放问题(Kaddour et al. 2022)。
- 非单调因果的检测:MIC/HSIC 等度量虽存在,但对小样本、高维数据稳定性不足;尚未形成"因果方向 + 因果强度"的统一估计。
个人反思与批判性分析
本章是全书最理论、最结构化的一章,也是后面所有 DoWhy/EconML 实践的基石。值得讨论的几个层面:
- 三 rungs 的"严格不可降级"是 Pearl 框架的强假设。Rubin 潜在结果(potential outcomes)框架下,rung 1 与 rung 2 的区分并不像 Pearl 那样绝对——RCT 数据 + 严格假设下,rung 1 的条件概率就是 causal effect 的无偏估计(ATE)。作者在 Ch 8 会明确引入 exchangeability 假设去桥接这两个框架,但本章没点出。
- RCT 是"金标准"措辞的误导性。RCT 假设随机化成功(即分配概率与潜在结果独立),但实际 RCT 可能因不依从(non-compliance)、流失(attrition)、Hawthorne 效应等失效;Hernoń & Robins (2020) Ch 8–10 给出了 RCT 内因果推断的更精细工具,本章只一笔带过。
- Abduction 的工程可计算性:abduction 步要求"完全 SCM",真实场景下 SCM 中哪怕一个函数形式错(线性被假设成非线性),\(U\) 的估计就偏。本章的咖啡例子是 2 变量 toy,无法迁移到 \(N>10\) 的真实问题。Peters et al. (2017) 的加性噪声模型 (ANM) 给出部分解,但仅对特定函数族有效。
- "RL 是因果的" 简化论:Bottou et al. (2013) 的"bandit 是因果特例"成立,但反过来"RL 必是因果"是错的——Lee & Bareinboim (2018) 证明,当干预空间不同时(state-dependent treatment),bandit 与因果模型并不等价。Kaddour et al. (2022) survey 给出了更细致分类。
- Huszár (2019) 关系的形式化边界:"干预 = 反事实在总体上的期望" 仅在某些 Markov 假设下成立;非 Markov 系统(如反馈控制、active inference)下该等式失效。
- 与个人研究的连接:我在做血管生物力学时,常见的"rung 1 错觉"是把影像测得的血管直径变化与血压变化做相关性分析(容易跑出 \(r = 0.5\)),进而声称"直径变化是血压的预测因子"。本章提示我:这可能是 confounding(年龄、性别、心率共同驱动二者),需要 rung 2 的干预或纵向 RCT 才能下因果结论。反事实问题——"如果该患者去年就接受降压治疗,血管重塑会减缓多少?"——是临床决策的真正目标,但当前只能通过 SCM 假设 + 历史数据做近似反事实推算(与本章 abduction 步同构)。
重要参考文献
- [X1] Pearl, J., & Mackenzie, D. (2018/2019). The Book of Why: The New Science of Cause and Effect. Penguin Books — Ladder of Causation 的科普源头;本章叙事框架的直接来源。
- [X2] Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. Wiley — 本章反事实符号 \(Y_{X=x}\) 与 abduction-modification-prediction 三步法的权威定义来源;Ch 4 详述概率反事实。
- [X3] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 因果推断的"圣经",SCM 数学化的奠基。
- [X4] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — 与 Pearl 记法并行的另一主流记法(基于加性噪声模型 ANM);Ch 2 给出 SCM 形式化。
- [X5] Holland, P. W. (1986). Statistics and Causal Inference. Journal of the American Statistical Association, 81(396), 945–960 — "基础因果推断难题"(同一对象不可同时接受两种互斥处理)的最早系统化论述。
- [X6] Bottou, L., Peters, J., Quiñonero-Candela, J., Charles, D. X., Chickering, D. M., Portugaly, E., Ray, D., Simard, P., & Snelson, E. (2013). Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising. J. Mach. Learn. Res., 14(1), 3207–3260 — bandit / RL 与因果等价性命题的代表性论述。
- [X7] Lee, S., & Bareinboim, E. (2018). Structural Causal Bandits: Where to Intervene? NeurIPS 2018, 2573–2583 — 反例:无显式因果建模时,部分结构因果 bandit 仍非最优。
- [X8] Huszár, F. (2019, January 24). Causal Inference 3: Counterfactuals. https://www.inference.vc/causal-inference-3-counterfactuals/ — "干预 = 反事实在总体上的期望" 命题的来源。
- [X9] Gretton, A., Fukumizu, K., Teo, C. H., Song, L., Schölkopf, B., & Smola, A. (2007). A Kernel Statistical Test of Independence. NIPS — HSIC 独立性测试的原始论文;本章用作 Pearson \(r\) 之外的更通用工具。
- [X10] Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R., McVean, G., Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M., & Sabeti, P. C. (2011). Detecting Novel Associations in Large Data Sets. Science, 334(6062), 1518–1524 — MIC 度量;处理非单调相关。
- [X11] Matthews, J. N. S. (2006). Introduction to Randomized Controlled Clinical Trials (2nd ed.). Chapman & Hall/CRC — RCT 设计与分析的标准教材;本章 RCT 框注的参考。
- [X12] Kaddour, J., Lynch, A., Liu, Q., Kusner, M. J., & Silva, R. (2022). Causal Machine Learning: A Survey and Open Problems. arXiv:2206.15475 — 因果与 ML 交叉领域的综合 survey;pp. 70–98 涵盖 RL、半监督、生成式模型与因果的关系。
- [X13] Neal, B. (2020, December 9). 14.2 - Computing Counterfactuals [Video]. YouTube. https://www.youtube.com/watch?v=wuYda40rqgo — 反事实三步法的教学视频,配合本章。