第02章：Judea Pearl and the Ladder of Causation

作者

本章是 Aleksander Molak 撰写的核心概念章节。Judea Pearl 本人是以色列裔美国计算机科学家、ACM 图灵奖得主（2011），其因果推断的开创性工作集中于 1990s–2010s；本章所引用的"Ladder of Causation"框架最早系统化于 Pearl & Mackenzie (2018/2019) The Book of Why。本节作者还参考了 Pearl, Glymour & Jewell (2016) Causal Inference in Statistics: A Primer 的符号系统，以及 Peters, Janzing & Schölkopf (2017) 的对立记法体系。

内容概述

本章建立全书最核心的心智模型——Pearl 的"因果阶梯"（Ladder of Causation）。它把因果问题分为三个层级：第一级 Association（观察/条件概率 $P(Y|X)$）、第二级 Intervention（干预/do-算子 $P(Y|\mathrm{do}(X))$）、第三级 Counterfactual（反事实 $P(Y_{X=0}=1 | X=1, Y_{X=1}=1)$）。每级配对相应的数学工具：rung 1 用条件概率，rung 2 用 do-算子，rung 3 用 abduction-modification-prediction 三步法。本章还通过 bookstore SCM（Python BookSCM 类）和咖啡反事实（CounterfactualSCM 类）两段代码，把抽象概念落到 NumPy / SciPy 可运行的实现。最后一节把 Ladder 框架外推到 RL、半监督学习、生成式模型（GPT-4 / DALL-E 2），指出当前主流 ML 几乎都停留在 rung 1。

核心方程与概念

条件概率（rung 1 工具）： $$P(X=x \mid Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)}$$ 简记为 $P(X|Y)$。它只修改我们看待数据的视角，不修改数据生成过程本身；因此不能回答因果方向性问题（如"是 $X$ 导致 $Y$，还是反向，或由共同隐变量导致"）。
Structural Causal Model（SCM）— 全书数据生成语法的基石： $$A \coloneqq f_A(U_0), \quad B \coloneqq f_B(A, U_1), \quad C \coloneqq f_C(A, B, U_2)$$ 其中 $A,B,C$ 是 endogenous（实线圆节点），$U_0,U_1,U_2$ 是 exogenous（虚线圆节点，又称 noise / root 节点）。$\coloneqq$ 是"海象算子"（walrus operator），强调关系是有向、非对称的（与普通等号 = 的对称性对立）。绝大多数因果推断方法要求 noise 变量之间互不相关——这一假设在真实数据中常常被违反，是核心困难。
Bookstore 例子 SCM： $$U_0 \sim \mathcal{U}(0,1), \quad U_1 \sim \mathcal{N}(0,1)$$ $$A \coloneqq \mathbf{1}\{U_0 > 0.61\}, \quad B \coloneqq \mathbf{1}\{(A + 0.5 U_1) > 0.2\}$$ 实验测得 $P(\text{book A} | \text{book B}) = 0.638$，表明 $A$ 与 $B$ 有强正向关联；但 SCM 显示 $B$ 依赖 $A$ 与 $U_1$，故 $A \to B$ 才是因果方向——纯条件概率无法推断此点。
干预 / do-算子（rung 2 工具）： $$P(Y=1 \mid \mathrm{do}(X=0))$$ 干预修改系统本身：固定 $X$ 到一个值（截断其所有 incoming edges），从而 $X$ 不再依赖其父节点；这导致三个变化：(i) $X$ 的子孙节点分布改变，(ii) $X$ 与其祖先独立，(iii) 二者同时发生（除特殊抵消情形如 $f(x)=x-x$）。条件作用则不修改任何变量的真实取值。连续 SCM 示例 $A = U_0, B = 5A + U_1$：在 $\mathrm{do}(A=1.5)$ 后 $\mathrm{mean}(B) = 7.69, \mathrm{var}(B) = 0.99$；原分布中 $\mathrm{mean}(B) = -0.62, \mathrm{var}(B) = 22.67$。在 $\mathrm{do}(B)$ 时 $A$ 与 $B$ 的相关系数从 0.978 跌到 $-0.023$（$p = 0.821$），证实因果方向 $A \to B$。
相关与因果的不对称性：因果不一定意味着传统相关。图 2.4 的 $X \sim \mathcal{U}(-2, 2), Y = X^2 + 0.2 \mathcal{N}(0,1)$ 因果关系清晰但 Pearson $r \approx 0$（非单调关系）。采样限制也会切断因果链（图 2.5：限制 $X \in (-1.9, 1.9)$）。需用 MIC（Reshef et al. 2011/2015）、HSIC（Gretton et al. 2007）等更通用独立性度量。
反事实（rung 3 工具）： $$P(Y_{X=0}=1 \mid X=1, Y_{X=1}=1)$$ 意为"在你今天喝了咖啡（$X=1$）且胃不舒服（$Y_{X=1}=1$）的前提下，假设你没喝咖啡（$X=0$）感觉会怎样的概率"。注意：等号右侧的 $X=1, Y_{X=1}=1$ 来自真实世界观测；等号左侧的 $Y_{X=0}=1$ 指反事实平行世界。这一记法禁止被化简为 do-表达式（Pearl, Glymour, Jewell 2016），是 rung 3 与 rung 2 的本质差异。
反事实三步法（abduction-modification-prediction）：
Abduction：用观测证据 $(T=1, Y=1)$ 求解 exogenous $U$。示例 SCM $T \coloneqq t, Y \coloneqq TU + (T-1)(U-1)$ 下，求解得 $U = \frac{T+Y-1}{2T-1} = 1$。
Modification：用反事实值替换处理变量方程。$T \coloneqq 0$。
Prediction：将 abduction 得到的 $U=1$ 代入修改后的 SCM，计算 $Y = 0 \cdot 1 + (0-1)(1-1) = 0$。本例确定性结果：你不喝咖啡就不会胃疼。概率版本的延伸见 Pearl, Glymour & Jewell (2016) Ch 4。
干预与反事实的关系：Huszár (2019) 指出干预查询 = 反事实查询在总体上的期望——这既揭示了 rung 2 与 rung 3 的不对称，又展示了 Pearl 框架的数学优美性。
基础因果推断难题（Holland, 1986）：同一对象在同一时间无法被观测到同时接受两种互斥处理——这是反事实不可观测的根本原因，也是 causal inference 与 statistical inference 的哲学分水岭。

关键结论

Ladder of Causation 严格区分三个层级：观察（rung 1，条件概率）、干预（rung 2，do-算子）、反事实（rung 3，反事实符号 $Y_{X=x}$）。每一级都不能被低一级的方法可靠地回答。
条件作用 $\neq$ 干预：前者只改分布的视图，后者改系统本身。混淆二者是医学/政策判断中常见的错误来源。
即便因果关系存在，Pearson $r$ 等线性相关指标也可能为 0（非单调函数、采样偏差）；非单调因果需 MIC / HSIC 等更广义独立性度量。
反事实可计算，但前提是 SCM 已被完全指定（所有相关函数 + 观测主体的 $U$ 值）。在 abduction 步用观测反求 $U$ 是其工程化关键。
多数当代 ML（GPT-3/4、DALL-E 2、LaMDA 等）停留在 rung 1：能产生强关联预测但缺乏因果世界模型；即便 GPT-4 偶尔正确回答因果/反事实问题，其泛化能力仍有限（详见 Ch 11）。
RL 与因果的关系是"部分 rung 2"：Bottou et al. (2013) 证明 bandit 是因果模型的特例；但 Lee & Bareinboim (2018) 表明没有显式因果建模时部分 bandit 仍非最优；MuZero 等 model-based RL 也可能因 confounding 受损。
半监督/无监督学习可借助信息论非对称性（Sgouritsa et al. 2015; Peters et al. 2017）和表示解缠（Berrevoets et al. 2023）部分去 confounding，介于 rung 1 与 rung 2 之间。

挑战和开放性问题

exogenous 变量独立性假设：SCM 框架要求 noise 变量互不相关；现实中很难验证。这是 causal inference 在高维数据上的根本瓶颈之一。
RCT 的局限性：RCT 是干预的"金标准"，但只能回答 rung 2 问题（相对疗效），无法回答 rung 3 问题（"如果我早治会怎样？""两个相近疗效的药物哪个更适合这个具体病人？"）。RCT 也常因伦理、成本、不可逆性（移民政策、终身用药）不可执行。
rung 3 量化与法律/政策耦合：反事实在法律（"若非被告疏忽，受害人会如何？"）、政策（"若不推出某政策，经济会如何？"）领域需求强烈但缺乏统一可计算的工业级框架。
大模型是否构成 rung 2？：作者承认 GPT-4 等有时能正确回答因果/反事实问题，但泛化性差。如何把 LLM 的"模式匹配 + 概率推理"与正式因果框架融合仍是开放问题（Kaddour et al. 2022）。
非单调因果的检测：MIC/HSIC 等度量虽存在，但对小样本、高维数据稳定性不足；尚未形成"因果方向 + 因果强度"的统一估计。

个人反思与批判性分析

本章是全书最理论、最结构化的一章，也是后面所有 DoWhy/EconML 实践的基石。值得讨论的几个层面：

三 rungs 的"严格不可降级"是 Pearl 框架的强假设。Rubin 潜在结果（potential outcomes）框架下，rung 1 与 rung 2 的区分并不像 Pearl 那样绝对——RCT 数据 + 严格假设下，rung 1 的条件概率就是 causal effect 的无偏估计（ATE）。作者在 Ch 8 会明确引入 exchangeability 假设去桥接这两个框架，但本章没点出。
RCT 是"金标准"措辞的误导性。RCT 假设随机化成功（即分配概率与潜在结果独立），但实际 RCT 可能因不依从（non-compliance）、流失（attrition）、Hawthorne 效应等失效；Hernoń & Robins (2020) Ch 8–10 给出了 RCT 内因果推断的更精细工具，本章只一笔带过。
Abduction 的工程可计算性：abduction 步要求"完全 SCM"，真实场景下 SCM 中哪怕一个函数形式错（线性被假设成非线性），$U$ 的估计就偏。本章的咖啡例子是 2 变量 toy，无法迁移到 $N>10$ 的真实问题。Peters et al. (2017) 的加性噪声模型 (ANM) 给出部分解，但仅对特定函数族有效。
"RL 是因果的" 简化论：Bottou et al. (2013) 的"bandit 是因果特例"成立，但反过来"RL 必是因果"是错的——Lee & Bareinboim (2018) 证明，当干预空间不同时（state-dependent treatment），bandit 与因果模型并不等价。Kaddour et al. (2022) survey 给出了更细致分类。
Huszár (2019) 关系的形式化边界："干预 = 反事实在总体上的期望" 仅在某些 Markov 假设下成立；非 Markov 系统（如反馈控制、active inference）下该等式失效。
与个人研究的连接：我在做血管生物力学时，常见的"rung 1 错觉"是把影像测得的血管直径变化与血压变化做相关性分析（容易跑出 $r = 0.5$），进而声称"直径变化是血压的预测因子"。本章提示我：这可能是 confounding（年龄、性别、心率共同驱动二者），需要 rung 2 的干预或纵向 RCT 才能下因果结论。反事实问题——"如果该患者去年就接受降压治疗，血管重塑会减缓多少？"——是临床决策的真正目标，但当前只能通过 SCM 假设 + 历史数据做近似反事实推算（与本章 abduction 步同构）。

重要参考文献

[X1] Pearl, J., & Mackenzie, D. (2018/2019). The Book of Why: The New Science of Cause and Effect. Penguin Books — Ladder of Causation 的科普源头；本章叙事框架的直接来源。
[X2] Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. Wiley — 本章反事实符号 $Y_{X=x}$ 与 abduction-modification-prediction 三步法的权威定义来源；Ch 4 详述概率反事实。
[X3] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 因果推断的"圣经"，SCM 数学化的奠基。
[X4] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — 与 Pearl 记法并行的另一主流记法（基于加性噪声模型 ANM）；Ch 2 给出 SCM 形式化。
[X5] Holland, P. W. (1986). Statistics and Causal Inference. Journal of the American Statistical Association, 81(396), 945–960 — "基础因果推断难题"（同一对象不可同时接受两种互斥处理）的最早系统化论述。
[X6] Bottou, L., Peters, J., Quiñonero-Candela, J., Charles, D. X., Chickering, D. M., Portugaly, E., Ray, D., Simard, P., & Snelson, E. (2013). Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising. J. Mach. Learn. Res., 14(1), 3207–3260 — bandit / RL 与因果等价性命题的代表性论述。
[X7] Lee, S., & Bareinboim, E. (2018). Structural Causal Bandits: Where to Intervene? NeurIPS 2018, 2573–2583 — 反例：无显式因果建模时，部分结构因果 bandit 仍非最优。
[X8] Huszár, F. (2019, January 24). Causal Inference 3: Counterfactuals. https://www.inference.vc/causal-inference-3-counterfactuals/ — "干预 = 反事实在总体上的期望" 命题的来源。
[X9] Gretton, A., Fukumizu, K., Teo, C. H., Song, L., Schölkopf, B., & Smola, A. (2007). A Kernel Statistical Test of Independence. NIPS — HSIC 独立性测试的原始论文；本章用作 Pearson $r$ 之外的更通用工具。
[X10] Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R., McVean, G., Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M., & Sabeti, P. C. (2011). Detecting Novel Associations in Large Data Sets. Science, 334(6062), 1518–1524 — MIC 度量；处理非单调相关。
[X11] Matthews, J. N. S. (2006). Introduction to Randomized Controlled Clinical Trials (2nd ed.). Chapman & Hall/CRC — RCT 设计与分析的标准教材；本章 RCT 框注的参考。
[X12] Kaddour, J., Lynch, A., Liu, Q., Kusner, M. J., & Silva, R. (2022). Causal Machine Learning: A Survey and Open Problems. arXiv:2206.15475 — 因果与 ML 交叉领域的综合 survey；pp. 70–98 涵盖 RL、半监督、生成式模型与因果的关系。
[X13] Neal, B. (2020, December 9). 14.2 - Computing Counterfactuals [Video]. YouTube. https://www.youtube.com/watch?v=wuYda40rqgo — 反事实三步法的教学视频，配合本章。