第08章：Causal Models – Assumptions and Challenges

作者

本章由 Aleksander Molak 撰写。涉及的核心理论参考 Pearl (2009)、Hernán & Robins (2020) Causal Inference: What If、Peters et al. (2017)；sample size 实验与 RealCause (Neal et al. 2020)、sensitivity analysis (Cinelli & Hazlett 2020)、Chernozhukov et al. (2022) 等。本章是 Part 2 的"理论安全网"——把 Ch 5–7 的假设显式化，为 Ch 9–11 的工程化方法做铺垫。

内容概述

本章把 Ch 5–7 中"若隐若现"的假设显式列出，给因果推断工程化一个完整的"假设清单"。内容分六块：（1）Identifiability——因果量可从 $P(V) + G$ 唯一确定；（2）Positivity / Overlap / Common support——$P(T=t|Z=z) > 0$；（3）Exchangeability / Ignorability——$\{Y^0, Y^1\} \perp\!\!\!\perp T | Z$；（4）Modularity / Independent mechanisms——干预只修改目标方程，不波及其他；（5）SUTVA（Stable Unit Treatment Value Assumption） + Consistency——单位间无干扰、处理无多版本；（6）Selection bias——特殊类型的 spuriousness（Wald 与 survivorship bias 的经典故事）。本章用 Icarus 神话 + 采样实验 + Python 仿真 + 历史案例，把所有"出问题"的方式系统化。

核心方程与概念

Identifiability（可识别性）：因果量（causal effect 或其他 causal quantity）可识别当且仅当能从观测分布 $P(V)$ + 因果图 $G$ 唯一确定它（Pearl 2009）。两个必要条件：
因果图层面：能通过 d-separation / do-calculus 阻断所有非因果信息流（用 back-door / front-door / IV / do-calculus）。
数据层面：estimators 有足够样本 + 满足 positivity assumption。
作者 LinkedIn 调研：28% 的从业者认为"获取因果图"是最大挑战。真实世界因果图不可知是因果推断落地的最大瓶颈。
Lack of causal graphs 的三种获取方式：
领域专家知识（domain expertise）——最可靠但最难获取。
因果发现算法（causal discovery）——便宜但难验证。
二者结合（作者推荐）——把专家知识作为 prior，因果发现作为搜索。
Not enough data 的实证：作者在 4 个样本量（30, 100, 1000, 10000）上跑 linear regression vs DML（gradient boosting + lasso）。结果：
$N=30$：两者都差，DML 误差方差更大（ML 估计器在小样本上偏差大）。
$N=100$：两者接近。
$N=1000$ / $10000$：两者收敛。
关键启示：DML 不是小样本银弹——线性回归在小样本上更稳。
Unverifiable assumptions：当 unobserved confounders 存在时，back-door 准则可能不成立，但我们无法验证——这是因果推断中"无法证明自己是对的"哲学问题的实践后果。IV 比 back-door 更受欢迎（在 applied econometrics 中）的原因：找一个好的 instrument 比确保 back-door 假设成立更容易。
"吃大象"的四层创造力：
Refutation tests（Ch 7）——检查整体结构正确性。
历史 RCT 数据校准——用过去的实验数据调整观测模型。
模拟数据验证——用 RealCause（Neal et al. 2020）生成器学习，但 Reisach et al. 2021 / Curth et al. 2021 警告：合成数据可能因 varsortability 误导评估。
敏感性分析（sensitivity analysis）——给定 confounding 的合理上界，看估计是否在 worst-case 下仍成立。用 PySensemakr（Cinelli & Hazlett 2020）实现；Chernozhukov et al. (2022) 推广到 causal ML 框架。
Positivity / Overlap / Common support（Hernán & Robins 2020）： $$P(T = t | Z = z) > 0, \quad \forall t, z \text{ in population support}$$ 直觉：$Z$ 的每个值上 $T$ 都应非零概率取值，否则需要外推（extrapolation）。Balestriero et al. 2021 指出"高维学习总是某种外推"——这与 positivity 共同提示高维因果推断的极端脆弱性。作者的反例：$Z$ 在 $T=0$ 时集中在 $[2,5]$、$T=1$ 时集中在 $[5,9]$——线性外推必然偏离真实函数。
Exchangeability / Ignorability（Hernán & Robins 2020; Rubin 1974; Neyman 1923）： $$\{Y^0, Y^1\} \perp\!\!\!\perp T | Z$$ 含义：treated 与 untreated 在 $Z$ 给定时 share 同样的 potential outcomes 分布。Pearl 指出这一定义令很多人困惑——但核心是简单的：treated 与 untreated 需要共享所有影响 $Y$ 的相关特征。本书把 exchangeability 简化为 unconfoundedness——通过 back-door / front-door 等方法实现；这与 Rubin 框架的细节不完全等价，但工程上足够。
Potential outcomes 框架 vs SCM/do-calculus 框架：
Potential outcomes（Rubin / Neyman）：$\{Y^0, Y^1\}$ 记号 + exchangeability 假设；起源于 1920s 波兰 Neyman 硕士论文。
SCM/do-calculus（Pearl）：图 + 干预算子。
Pearl 论证两者逻辑等价（Pearl 2009, pp. 98–102, 243–245）——但实践中图论框架更易发现 confounding 模式（如 collider 误控制），potential outcomes 在表达图结构时较笨拙。
作者采纳 Pearl 的混合立场：默认用图论，但 exchangeability 在医学 RCT 中仍是金标准语言。
Modularity / Independent mechanisms（Ch 6 graph mutilation 的形式化）：完美干预 $\mathrm{do}(X=x)$ 只修改 $X$ 的结构方程——所有其他方程保持不变。形式上：
在修改后的图 $G_M$ 中，$X$ 的所有入边被删去（graph mutilation / graph modification）。
其他节点的入边保持不变。
例：$X = \mathcal{N}(0,1), Z = \mathcal{N}(0,1), R = X + Z, Y = R + X$——$\mathrm{do}(R=r)$ 后 $R \coloneqq r$，但 $X \to Y$ 边保留（$X$ 仍影响 $Y$）。直觉反例：如果没有 modularity，改变按钮形状会自动触发网站翻译成葡萄牙文 + 电脑播放 Barbra Streisand + 律师染发——这是"反因果"世界。
SUTVA（Stable Unit Treatment Value Assumption）：
No interference：一个单位的处理不影响其他单位的 outcome。反例：家庭中一人接受心理治疗 → 全家行为改变；社交网络鼓励某人发消息 → 收件人也更活跃。
No multiple versions of treatment（也称为 Consistency 的一部分）：处理有唯一定义。
违反 SUTVA 的处理：cluster-level randomization（Gui et al. 2015; Saint-Jacques et al. 2018）、ego-randomization。
Consistency：处理应无多版本 + 实验无 placebo 效应（Pearl & Mackenzie 2019, p. 281）。反例：处理"中汽车"实际是 BMW（兴奋度 +10）或 Mazda（兴奋度 -5）——两个版本被编码为同一处理，违反 consistency。
Selection bias vs confounding（命名约定的混乱）：
Pearl & Mackenzie (2019)：confounding = 任何 spurious relationship。
Hernán & Robins (2020)：confounding = 共同原因（common cause）；selection bias = 共同结果（common outcome）。
Econometrics：selection bias = 任何 confounding bias。
作者立场：与 Hernán & Robins 一致——selection bias 是 special case of spuriousness，由 collider conditioning 引起。
Wald's survivorship bias（二战飞机装甲）：
直觉错误：在返回的飞机上加固弹孔密集处。
Wald 的洞见："missing holes"——返回的飞机已经"幸存"了，弹孔在引擎上密集的飞机根本没回来。
DAG 表示（图 8.8）：$T$ = 引擎中弹数，$Y$ = 总损伤严重度，$C$ = 是否返回。$C$ 是 $T$ 与 $Y$ 的 collider——条件化 $C$ 打开虚假路径 $T \to C \leftarrow Y$。
Python 仿真：$T \sim \mathcal{U}(20,110)$，$Y = T + \mathcal{U}(0,40)$，$C = \mathbb{1}[T + Y < 100]$。两课：(1) look at what's missing；(2) look further than you think is necessary。
Selection bias under the null（图 8.10）：$T$ 与 $Y$ 无直接边，但条件化 $C$ 仍能打开虚假路径。更阴险的版本（图 8.11）：$C$ 是 $Z$ 的后代，$C$ 与 $T, Y$ 无直接边——但条件化 $C$ 部分打开 collider 路径 $T \to Z \leftarrow W \to Y$。核心洞察：条件化 collider 的后代也常常（虽非必然）部分打开路径。

关键结论

因果推断的"假设清单"是工程化前提：identifiability + positivity + exchangeability + modularity + SUTVA + consistency + (无 selection bias) 七个假设联合支撑。任何一个失效都让估计无效——比 ML 模型的"数据假设"严苛得多。
真实世界三大挑战：
不知道因果图（最严重——28% 调研受众认为这是最大挑战）。
样本量不足（DML 在 $N=30$ 时比线性回归更差）。
假设不可验证（unobserved confounding 不可观测）。
缺乏因果图的三种应对：专家知识 / 因果发现 / 组合。作者推荐组合：把专家作为 prior，因果发现作为后验搜索。
Modularity 是 do-calculus 的工程基础——意味着"改一处不波及其他"。这一假设的违反会让因果工程彻底不可行。
SUTVA + Consistency 共同要求"处理可识别"——同一处理不能有多个版本；多版本处理需要拆开为多个 treatment levels。
Selection bias 是 collider conditioning 的特殊形式——Wald 故事教我们"look at what's missing"；selection bias under the null 教我们"look further than you think is necessary"。
Refutation + sensitivity + RealCause 三件套是"吃大象"的工程工具——但都不能给出"正确"保证，只能给出"没有明显错"。

挑战和开放性问题

Positivity 在高维不可验证：当 $Z$ 有 100 维，$P(T|Z) > 0$ 几乎不可能逐点验证，只能用 propensity score overlap 等聚合检查。
Sensitivity analysis 的"上界"难定：Cinelli & Hazlett (2020) 的方法是"假设 confounding 的最大强度"——但"最大强度"本身需要先验。
Modularity 的"局部性"vs 真实系统的"全局耦合"：生理系统（血管、神经、内分泌）几乎不存在"改一处不波及其他"的纯模块化——这是 SCM 应用在生物医学的根本张力。
SUTVA 在网络数据中几乎失效：社交网络、传染病、家庭治疗——单位间干扰是核心机制。Solution 在起步阶段：cluster randomization 损失 power；ego-randomization 实现复杂。
Selection bias 的检测难：标准工具（E-value, Rosenbaum bounds）只能检测"特定形式"的选择偏差。真实数据中常存在多重 selection 机制。
RealCause 等生成器的"varsortability"陷阱（Reisach et al. 2021）：合成数据可能因"排序可识别性"误导评估——一个"在合成数据上表现好"的算法可能依赖合成器的特定结构而非真实 DGP。
Exchangeability 与 unconfoundedness 的等价性争议：本书把 exchangeability 简化为 unconfoundedness，但 Pearl (2009) pp. 196–199 指出二者不等价（exchangeability 包含 unconfoundedness，但反之不真）。

个人反思与批判性分析

本章是 Part 2 的"安全网"——把所有假设显式化是工程化因果推断的关键步骤。值得讨论的几个层面：

"假设清单"的脆弱性是工程上最大的隐性风险：作者列出 7 个假设（identifiability + positivity + exchangeability + modularity + SUTVA + consistency + no selection bias），但任何一条失效都会让估计无效。传统 ML 模型的"假设失效"通常表现为"精度下降"——可检测、可回退；因果模型假设失效通常表现为"看似合理但系统偏差"——难检测、难回退。这是因果项目在生产中最容易翻车的地方。
Modularity 在生物系统中几乎不成立：作者举的"按钮形状 → 葡语翻译 + 音乐 + 律师染发"是反例，但真实生物系统的模块性更弱——血管张力变化会同时影响心脏负荷、肾素分泌、神经反馈。SMC G&R 框架下，"管壁硬度"看似是一个独立变量，实际上通过多个反馈环路耦合到几乎所有心血管变量。把生物系统强行分解为模块再用 SCM 分析，风险是忽视关键的全局耦合。Cyclic SCM（Ch 4 提及）是更现实的方向，但工业级实现稀缺。
Positivity 在医学上极难满足：很多医学问题中"某亚组 + 某处理"在数据中可能为零（如 80 岁以上女性接受某药）。Hernán & Robins (2020) 给出"target trial emulation"作为部分解，但需要目标试验协议而非简单数据后处理。生产中："用全样本 ML 估计 causal effect"会严重高估罕见亚组的效应——这是 positivity violation 的典型后果。
Wald 故事的现代等价：selection bias 在医学 COVID-19 研究中最致命——只测有症状的感染者会高估重症率；只测住院的会高估病死率。作者用 Wald 故事非常有效——但作者没强调这是条件化 collider的几何后果。在生产中检测 selection bias 需要显式建模"是否被观测到"（C = 0 / 1 变量），而不是简单丢弃缺失数据。
Sample size 实证的工程启示：作者用 4 个样本量对比 LR vs DML，关键发现在 $N=30$ 时 DML 反而更差——这是小样本 ML 估计器的偏差。Chernozhukov et al. (2016) 的 DML 理论要求cross-fitting + 大样本——$N=30$ 时 cross-fitting 的 split 极度不均，第二阶段估计方差爆炸。生产中：在 $N < 200$ 时优先用简单线性回归 + 稳健标准误（HC3 / cluster bootstrap），不要贸然用 DML。
Sensitivity analysis 的"诚实的悲观"：Cinelli & Hazlett (2020) 的"worst-case bias"分析给出了一个常被忽视的视角——任何观测因果效应都应该报告"在最坏 confound 强度下是否仍显著"。E-value（ Vanderweele & Ding 2017）是单数字的 worst-case robustness 测度。一个 E-value < 2 的因果效应在小幅 confounding 下就可能消失——对生产中报告 ATE 的团队，这是个简单但关键的健康检查。
Exchangeability 与 unconfoundedness 的合并是否合理：作者承认这一简化"not always accepted"——但在工程上确实方便。真实医学数据中 exchangeability 经常弱于 unconfoundedness（因为 unobserved prognostic factors 可能选择性影响 treatment assignment）。Hernán & Robins (2020) Ch 12 给出 detailed discussion。生产中的实用建议：用 IPTW (inverse probability of treatment weighting) + 协变量平衡检查（standardized mean differences）间接验证 unconfoundedness；无法直接验证 exchangeability。
"吃大象"四层创造力的工程顺序：作者列出 refutation → RCT 校准 → RealCause → sensitivity，这在工程上不一定是最佳顺序。生产中更常见的顺序是：(1) 画因果图 + 做 expert review → (2) sensitivity analysis → (3) refutation tests → (4) RCT 校准（如果有）。先做 sensitivity 能告诉我们"估计在最坏情况下是否还成立"——这是最重要的稳健性指标。
对个人研究的启发：我在做血管生物力学时，positivity 是最大的隐性风险——临床数据中"老年 + 女性 + 糖尿病"亚组样本极少。SMC G&R 框架下的因果推断不能直接套用 ML 通用方法——必须先做亚组平衡检查，对不平衡亚组用 IPTW 调整 + sensitivity analysis 报告 E-value。Modularity 假设在生物系统中不成立意味着单一变量的因果效应估计在生物医学中可能严重误导——必须考虑全系统的反馈环路。

重要参考文献

[X1] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — Identifiability 定义；PO vs SCM 框架等价性的论证；Ch 6 pp. 196–199, 341–344 详述 exchangeability 与 confounding 区分。
[X2] Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — Positivity、Exchangeability、SUTVA、Consistency、Selection bias 的标准定义与流行病学背景。
[X3] Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701 — Potential outcomes 框架的现代奠基。
[X4] Neyman, J. (1923). Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes. — Potential outcomes 框架的早期（波兰语硕士论文）。
[X5] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — Identifiability 与 confounding 的形式化。
[X6] Cinelli, C., & Hazlett, C. (2020). Making Sense of Sensitivity: Extending Omitted Variable Bias. JRSS B, 81(1), 39–67 — Sensitivity analysis 的现代框架；PySensemakr 的理论基础。
[X7] Chernozhukov, V., Cinelli, C., Newey, W., Sharma, A., & Syrgkanis, V. (2022). Long Story Short: Omitted Variable Bias in Causal Machine Learning (NBER WP 30302) — Causal ML 框架下的 sensitivity analysis。
[X8] Neal, B., Huang, C., & Raghupathi, S. (2020). RealCause: Realistic Causal Inference Benchmarking. arXiv:2011.15007 — Realistic 因果推断基准生成器。
[X9] Reisach, A. G., Seiler, C., & Weichwald, S. (2021). Beware of the Simulated DAG! Varsortability in Additive Noise Models. arXiv:2102.13647 — 合成数据"varsortability"陷阱的警示。
[X10] Curth, A., Svensson, D., Weatherall, J., & van der Schaar, M. (2021). Really Doing Great at Estimating CATE? A Critical Look at ML Benchmarking Practices in Treatment Effect Estimation. NeurIPS Datasets and Benchmarks Track — CATE 估计器的评估问题。
[X11] Balestriero, R., Pesenti, J., & LeCun, Y. (2021). Learning in High Dimension Always Amounts to Extrapolation. arXiv:2110.09485 — 高维学习本质上是外推；与 positivity 假设的关系。
[X12] Wald, A. (1980). A Reprint of 'A Method of Estimating Plane Vulnerability Based on Damage of Survivors'. Center for Naval Analyses — 二战飞机 survivorship bias 的原始论文。
[X13] Pearl, J., & Mackenzie, D. (2019). The Book of Why. Penguin Books — Modularity、Consistency 的哲学普及；p. 281 consistency 实验无 placebo 论述。
[X14] Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. Wiley — back-door 与 potential outcomes 的桥接论述。
[X15] Gui, H., Xu, Y., Bhasin, A., & Han, J. (2015). Network A/B Testing: From Sampling to Estimation. WWW 2015, 399–409 — 社交网络 A/B 测试的 SUTVA 失效处理。
[X16] Saint-Jacques, G., Varshney, M., Simpson, J., & Xu, Y. (2019). Using Ego-Clusters to Measure Network Effects at LinkedIn. arXiv:1903.08755 — LinkedIn 网络实验的 ego-randomization 实践。
[X17] Graves, R. (1955). The Greek Myths. Penguin Books — Icarus 神话的英文普及版。
[X18] Altucher, J., & Altucher, C. A. (2014). The Power of No. Hay House — "如果想不到 10 个创意，就想 20 个"的创造性思维。
[X19] VanderWeele, T. J., & Ding, P. (2017). Sensitivity Analysis in Observational Research: Introducing the E-Value. Annals of Internal Medicine, 167(4), 268–274 — E-value 单数字 robustness 测度（隐式引用）。
[X20] Balestriero, R. & LeCun, Y. (2022). Machine Learning Street Talk #86 [Video]. YouTube — 高维学习与外推的科普访谈。