第01章:Causality – Hey, We Have Machine Learning, So Why Even Bother?
作者
本章为 Aleksander Molak(Aleksander Molak,独立机器学习研究者、Lespire.io 联合创始人)撰写;技术审稿由 Nicole Königstein(impactvise 数据科学负责人、Quantmate 量化研究负责人)参与;推荐序由 Ajit Jaokar(牛津大学工程科学系访问研究员、人工智能课程主任)撰写。本书由 Packt Publishing 于 2023 年 6 月首次出版,定位为面向机器学习工程师与数据科学家的因果机器学习入门书,主体使用 DoWhy、EconML、PyTorch、HuggingFace Transformers、CausalPy、gCastle 等 Python 库。
内容概述
本章是全书的引子,从“为什么 ML 已经这么强,我们还需要因果”出发。沿三条线索展开:(1)因果思想史的极简回溯(Aristotle 的四因说、Hume 的“恒常联结”理论、Hume 解释与机器学习/条件学习的相似性);(2)婴儿实验研究(Gopnik, Stahl & Feigenson)说明人类超越纯观察、需要主动干预才能学到“反事实”规律;(3)用营销 uplift 公式 \(\tau_i = Y_i(1) - Y_i(0)\) 和医生处方困境(Simpson 悖论实例)说明仅靠观察数据无法回答决策性问题的根本原因——counterfactuals 永远无法被同时观测。
核心方程与概念
-
个体处理效应(ITE): $\(\tau_i = Y_i(1) - Y_i(0)\)$ 其中 \(Y_i(1)\) 是个体 \(i\) 在接受处理 \(T\) 时的潜在结果,\(Y_i(0)\) 是同一 \(i\) 在不接受处理时的潜在结果。\(Y_i(1)\) 与 \(Y_i(0)\) 二者互斥、永远不能被同时观测,因此真实 \(\tau_i\) 不可知——这就是 causal inference 区别于 supervised learning 的核心困难。
-
Hume 因果观(简化版):观察到 \(A\) 出现在 \(B\) 之前;多次重复后形成“预期感”;此预期感即因果概念本身——即因果是主体内的“心理联结”,而非世界客观属性。
-
Confounding 的因果定义:一个变量 \(Z\) 同时影响 \(X\) 与 \(Y\),造成 \(X\) 与 \(Y\) 的统计关联(spurious association)。作者用 ice-cream / drowning / temperature 的三变量例子说明:在 2 变量模型(ICE, ACC)里 ICE ↔ ACC 显著;加入 confounder TMP 后这条边消失(ICE ← TMP → ACC)。Confounding 是因果概念,仅靠统计无法判断 \(X\) 与 \(Y\) 的关联是 spurious 还是 causal。
-
Simpson 悖论(Yule-Simpson effect):把同一份数据按性别分层后,drug A 在男、女两个子组里都更优,但合并汇总时 drug B 更优(drug A 总体 22% 血凝率,drug B 总体 19%;但女性 drug A 30% vs drug B 40%,男性 drug A 7% vs drug B 7.5%)。这是第 3 章“是否应该控制所有可观测协变量”的铺垫:分层可能反转总体结论。
-
干预 vs 观察(预告,详见 Ch 2):Hume 只承认观察;婴儿研究(Gopnik 2009; Stahl & Feigenson 2015)证明人类可以通过主动实验(intervention)学到观察永远学不到的东西。RCT 是干预的最纯净形式,可消除 confounding;observational study 缺这一保证。
-
Kahneman 注释:作者援引 Kahneman (2011) Thinking, Fast and Slow 提到的快/慢系统作为人类认知的双通道类比(仅作为引子,深入讨论留给 Ch 2 的 Ladder of Causation)。
关键结论
- Hume 式的纯观察因果理论在哲学上可自洽,但在科学上不充分;婴儿 11 个月大起就偏好“违反预期”的物体,揭示主动实验是因果学习的核心机制。
- 经典 ML 多数情况下是 associative learning 的工程化,对“为什么”型问题天然无能为力。
- ITE 公式 \(\tau_i = Y_i(1) - Y_i(0)\) 直接说明:counterfactuals 不可观测 → 真实 causal effect 不可知 → 监督学习不能直接给出 uplift 估计。
- Confounding 必须借助因果图识别,纯统计检验(t-test、相关性、回归系数)无法区分 spurious 与 causal 关联;图 1.2/1.3 给出 a, b, c 三变量例子:b → a, b → c,a 与 c 显著相关但二者无直接因果。
- Simpson 悖论是 confounding 的极端表现:相同数字、相同模型,按性别分层后结论完全反转;治疗决策不能脱离因果图直接看回归系数。
- 本章给出两条务实行动建议:(a)当 RCT 不可得时,构建因果图(domain knowledge)并用图论工具识别可估量;(b)当目标是预测而非决策、且生产数据 i.i.d. 于训练数据时,经典 ML 仍可胜任。
挑战和开放性问题
- 干预的可获得性:RCT 在医学、政策、定价、人因工程中常常因伦理、成本、外溢效应(spillover)不可行;如何在没有干预的情况下稳健地估计 causal effect 仍是开放问题。
- Simpson 悖论的工程化处理:实际数据中协变量数量极大(成百上千),如何判断“正确的分层”或“正确的协变量子集”没有通用答案;feature selection 不能代替因果模型。
- 婴儿实验的认知科学外推:Gopnik 等人的实验基于人类婴儿,跨物种、跨年龄的因果学习能力差异如何影响 AI 系统设计(developmental AI)是新兴议题。
- upland modeling 与因果的关系:第 9–10 章预告的 uplift modeling 是 marketing 界对 ITE 不可知性的工程妥协,其与正式因果推断的差距未被本章量化。
个人反思与批判性分析
本章作为全书的“动机章节”,是教科书里写得最熟练的部分之一,但也最容易被批评为“立论多于论证”。具体而言:
- Hume 解读的选择性:作者给出的 Hume “简化版”只保留了恒常联结 + 心理预期,忽略了 Hume 在 An Enquiry Concerning the Human Understanding(1758)里给出的更精细定义,以及 Archie (2005) 等学者对 Hume 因果观的不同解读。书里自己也加了框注承认这一点,但本节的主要叙事仍依赖这一简化版——读者若不查注释,可能误以为哲学界对 Hume 已有定论。
- 婴儿实验的因果地位:Gopnik 2009 / Stahl & Feigenson 2015 证明婴儿有实验偏好,但这一结论是否支撑“我们必须超越观察”仍依赖一个关键假设:实验在 外部有效。如果某领域系统地只能被观察(e.g. 历史社会学、天体物理),则 Hume 限制仍起作用——这是本章的隐含漏洞。
- Confounding 概念的"严格因果"性:作者强调“confounding is a strictly causal concept”,这是 Pearl 框架的强表述;在 Rubin 的 potential outcomes 框架下,“confounding” 经常被定义为 “treatment 与 potential outcomes 的统计依赖”,并被允许在某些假设下从纯统计语言操作化。两个框架的差异在本章被搁置,读者应意识到这不是唯一表述。
- Simpson 悖论实例的实用性:drug A vs drug B 例子虽然直观,但性别是 confounder 还是 effect modifier 取决于真实因果结构(图 1.1 类比),仅看表 1.1/1.2 数字无法确定。本章正确地指出了“用纯 ML feature selection 不能解决”这一关键点,但未给出识别策略——这正是 Ch 3 之后的 Graphical Models / d-separation 章节要补的。
- 对于个人研究的启发:我在做血管生物力学时,常被“物理模型 + 影像数据 → 估计血管壁应力”这类逆向问题困扰。Simpson 悖论的存在提示我:当样本按年龄、性别、疾病亚型分层后,总体相关方向可能完全反转。在 SMC G&R 框架下,本构参数很可能与病人协变量存在 confounding;如果不显式建模因果图(哪怕是定性 DAG),任何对“管壁越硬 → 破裂风险越高”的简单回归都可能与真实因果方向相反。本章的真正价值就在于提醒:做 ML 之前先画图。
- 对比 Pearl 2009 与本书定位:Pearl & Mackenzie (2018) The Book of Why 偏向哲学普及;Hernán & Robins (2020) Causal Inference: What If 偏向流行病学方法论;Molak 本书则填补“机器学习工程师视角下的因果”空白,把 Pearl 的 SCM / do-calculus 翻译成 DoWhy / EconML / PyTorch 可调的代码示例,这一定位决定了 Ch 1 必须先让 ML 从业者产生“痛点共鸣”,再在 Ch 2 引入 Ladder of Causation 作为统一心智模型。
重要参考文献
- [X1] Aristotle. Aristotle on Causality (Falcon, A., The Stanford Encyclopedia of Philosophy, Spring 2022 Edition, Edward N. Zalta, ed.). https://plato.stanford.edu/archives/spr2022/entries/aristotle-causality/ — 亚里士多德四因说(material / formal / efficient / final)的现代综述,本章哲学起点。
- [X2] Hume, D., & Millican, P. F. (2007). An Enquiry Concerning Human Understanding. Oxford University Press (originally 1739/1758) — Hume 因果理论原始文献;本章简化版解读的源头。
- [X3] Gopnik, A. (2009). The Philosophical Baby: What Children's Minds Tell Us About Truth, Love, and the Meaning of Life. New York: Farrar, Straus and Giroux — 婴儿因果学习心理学的代表性著作;本章"Why causality? Ask babies!"一节的核心来源。
- [X4] Stahl, A. E., & Feigenson, L. (2015). Observing the unexpected enhances infants' learning and exploration. Science, 348(6230), 91–94. https://doi.org/10.1126/science.aaa3799 — 11 月龄婴儿偏好“违反预期”物体的实验,是 Gopnik 理论的实验支撑。
- [X5] Hernan, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — “Data cannot speak for themselves” 提法的源头;贯穿全书的因果推断权威教材。
- [X6] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux — 双系统认知模型,本章用以类比人类因果学习与 ML 学习的差异。
- [X7] Gutierrez, P., & Gerardy, J. (2017). Causal Inference and Uplift Modelling: A Review of the Literature. Proceedings of the 3rd International Conference on Predictive Applications and APIs, PMLR 67, 1–13 — Uplift modeling 的综述,marketer dilemma 部分的工程化出处,Ch 9–10 进一步展开。
- [X8] Alexander, J. E., Audesirk, T. E., & Audesirk, G. J. (1985). Classical Conditioning in the Pond Snail Lymnaea stagnalis. The American Biology Teacher, 47(5), 295–298. https://doi.org/10.2307/4448054 — 经典条件反射在低等生物中也存在的实验证据,Hume-associative-learning 类比的生物学基础。
- [X9] Archie, L. (2005). Hume's Considered View on Causality. PhilSci-Archive preprint 2247 — 对 Hume 因果观的另一种学术解读;本章框注承认其与本文简化版的差异。
- [X10] Falcon, A. (2006). Aristotle on Causality. The Stanford Encyclopedia of Philosophy (2006 first edition) — Aristotle 因果观早期综述,本章四因说的另一参考。
- [X11] Lorkowski, C. M. Hume on Causation. Internet Encyclopedia of Philosophy, https://iep.utm.edu/hume-causation/ — Hume 因果观的另一综述,补充 Archie 与本文简化版的中间立场。