第01章：Causality – Hey, We Have Machine Learning, So Why Even Bother?

作者

本章为 Aleksander Molak（Aleksander Molak，独立机器学习研究者、Lespire.io 联合创始人）撰写；技术审稿由 Nicole Königstein（impactvise 数据科学负责人、Quantmate 量化研究负责人）参与；推荐序由 Ajit Jaokar（牛津大学工程科学系访问研究员、人工智能课程主任）撰写。本书由 Packt Publishing 于 2023 年 6 月首次出版，定位为面向机器学习工程师与数据科学家的因果机器学习入门书，主体使用 DoWhy、EconML、PyTorch、HuggingFace Transformers、CausalPy、gCastle 等 Python 库。

内容概述

本章是全书的引子，从“为什么 ML 已经这么强，我们还需要因果”出发。沿三条线索展开：（1）因果思想史的极简回溯（Aristotle 的四因说、Hume 的“恒常联结”理论、Hume 解释与机器学习/条件学习的相似性）；（2）婴儿实验研究（Gopnik, Stahl & Feigenson）说明人类超越纯观察、需要主动干预才能学到“反事实”规律；（3）用营销 uplift 公式 $\tau_i = Y_i(1) - Y_i(0)$ 和医生处方困境（Simpson 悖论实例）说明仅靠观察数据无法回答决策性问题的根本原因——counterfactuals 永远无法被同时观测。

核心方程与概念

个体处理效应（ITE）： $$\tau_i = Y_i(1) - Y_i(0)$$ 其中 $Y_i(1)$ 是个体 $i$ 在接受处理 $T$ 时的潜在结果，$Y_i(0)$ 是同一 $i$ 在不接受处理时的潜在结果。$Y_i(1)$ 与 $Y_i(0)$ 二者互斥、永远不能被同时观测，因此真实 $\tau_i$ 不可知——这就是 causal inference 区别于 supervised learning 的核心困难。
Hume 因果观（简化版）：观察到 $A$ 出现在 $B$ 之前；多次重复后形成“预期感”；此预期感即因果概念本身——即因果是主体内的“心理联结”，而非世界客观属性。
Confounding 的因果定义：一个变量 $Z$ 同时影响 $X$ 与 $Y$，造成 $X$ 与 $Y$ 的统计关联（spurious association）。作者用 ice-cream / drowning / temperature 的三变量例子说明：在 2 变量模型（ICE, ACC）里 ICE ↔ ACC 显著；加入 confounder TMP 后这条边消失（ICE ← TMP → ACC）。Confounding 是因果概念，仅靠统计无法判断 $X$ 与 $Y$ 的关联是 spurious 还是 causal。
Simpson 悖论（Yule-Simpson effect）：把同一份数据按性别分层后，drug A 在男、女两个子组里都更优，但合并汇总时 drug B 更优（drug A 总体 22% 血凝率，drug B 总体 19%；但女性 drug A 30% vs drug B 40%，男性 drug A 7% vs drug B 7.5%）。这是第 3 章“是否应该控制所有可观测协变量”的铺垫：分层可能反转总体结论。
干预 vs 观察（预告，详见 Ch 2）：Hume 只承认观察；婴儿研究（Gopnik 2009; Stahl & Feigenson 2015）证明人类可以通过主动实验（intervention）学到观察永远学不到的东西。RCT 是干预的最纯净形式，可消除 confounding；observational study 缺这一保证。
Kahneman 注释：作者援引 Kahneman (2011) Thinking, Fast and Slow 提到的快/慢系统作为人类认知的双通道类比（仅作为引子，深入讨论留给 Ch 2 的 Ladder of Causation）。

关键结论

Hume 式的纯观察因果理论在哲学上可自洽，但在科学上不充分；婴儿 11 个月大起就偏好“违反预期”的物体，揭示主动实验是因果学习的核心机制。
经典 ML 多数情况下是 associative learning 的工程化，对“为什么”型问题天然无能为力。
ITE 公式 $\tau_i = Y_i(1) - Y_i(0)$ 直接说明：counterfactuals 不可观测 → 真实 causal effect 不可知 → 监督学习不能直接给出 uplift 估计。
Confounding 必须借助因果图识别，纯统计检验（t-test、相关性、回归系数）无法区分 spurious 与 causal 关联；图 1.2/1.3 给出 a, b, c 三变量例子：b → a, b → c，a 与 c 显著相关但二者无直接因果。
Simpson 悖论是 confounding 的极端表现：相同数字、相同模型，按性别分层后结论完全反转；治疗决策不能脱离因果图直接看回归系数。
本章给出两条务实行动建议：（a）当 RCT 不可得时，构建因果图（domain knowledge）并用图论工具识别可估量；（b）当目标是预测而非决策、且生产数据 i.i.d. 于训练数据时，经典 ML 仍可胜任。

挑战和开放性问题

干预的可获得性：RCT 在医学、政策、定价、人因工程中常常因伦理、成本、外溢效应（spillover）不可行；如何在没有干预的情况下稳健地估计 causal effect 仍是开放问题。
Simpson 悖论的工程化处理：实际数据中协变量数量极大（成百上千），如何判断“正确的分层”或“正确的协变量子集”没有通用答案；feature selection 不能代替因果模型。
婴儿实验的认知科学外推：Gopnik 等人的实验基于人类婴儿，跨物种、跨年龄的因果学习能力差异如何影响 AI 系统设计（developmental AI）是新兴议题。
upland modeling 与因果的关系：第 9–10 章预告的 uplift modeling 是 marketing 界对 ITE 不可知性的工程妥协，其与正式因果推断的差距未被本章量化。

个人反思与批判性分析

本章作为全书的“动机章节”，是教科书里写得最熟练的部分之一，但也最容易被批评为“立论多于论证”。具体而言：

Hume 解读的选择性：作者给出的 Hume “简化版”只保留了恒常联结 + 心理预期，忽略了 Hume 在 An Enquiry Concerning the Human Understanding（1758）里给出的更精细定义，以及 Archie (2005) 等学者对 Hume 因果观的不同解读。书里自己也加了框注承认这一点，但本节的主要叙事仍依赖这一简化版——读者若不查注释，可能误以为哲学界对 Hume 已有定论。
婴儿实验的因果地位：Gopnik 2009 / Stahl & Feigenson 2015 证明婴儿有实验偏好，但这一结论是否支撑“我们必须超越观察”仍依赖一个关键假设：实验在 外部有效。如果某领域系统地只能被观察（e.g. 历史社会学、天体物理），则 Hume 限制仍起作用——这是本章的隐含漏洞。
Confounding 概念的"严格因果"性：作者强调“confounding is a strictly causal concept”，这是 Pearl 框架的强表述；在 Rubin 的 potential outcomes 框架下，“confounding” 经常被定义为 “treatment 与 potential outcomes 的统计依赖”，并被允许在某些假设下从纯统计语言操作化。两个框架的差异在本章被搁置，读者应意识到这不是唯一表述。
Simpson 悖论实例的实用性：drug A vs drug B 例子虽然直观，但性别是 confounder 还是 effect modifier 取决于真实因果结构（图 1.1 类比），仅看表 1.1/1.2 数字无法确定。本章正确地指出了“用纯 ML feature selection 不能解决”这一关键点，但未给出识别策略——这正是 Ch 3 之后的 Graphical Models / d-separation 章节要补的。
对于个人研究的启发：我在做血管生物力学时，常被“物理模型 + 影像数据 → 估计血管壁应力”这类逆向问题困扰。Simpson 悖论的存在提示我：当样本按年龄、性别、疾病亚型分层后，总体相关方向可能完全反转。在 SMC G&R 框架下，本构参数很可能与病人协变量存在 confounding；如果不显式建模因果图（哪怕是定性 DAG），任何对“管壁越硬 → 破裂风险越高”的简单回归都可能与真实因果方向相反。本章的真正价值就在于提醒：做 ML 之前先画图。
对比 Pearl 2009 与本书定位：Pearl & Mackenzie (2018) The Book of Why 偏向哲学普及；Hernán & Robins (2020) Causal Inference: What If 偏向流行病学方法论；Molak 本书则填补“机器学习工程师视角下的因果”空白，把 Pearl 的 SCM / do-calculus 翻译成 DoWhy / EconML / PyTorch 可调的代码示例，这一定位决定了 Ch 1 必须先让 ML 从业者产生“痛点共鸣”，再在 Ch 2 引入 Ladder of Causation 作为统一心智模型。

重要参考文献

[X1] Aristotle. Aristotle on Causality (Falcon, A., The Stanford Encyclopedia of Philosophy, Spring 2022 Edition, Edward N. Zalta, ed.). https://plato.stanford.edu/archives/spr2022/entries/aristotle-causality/ — 亚里士多德四因说（material / formal / efficient / final）的现代综述，本章哲学起点。
[X2] Hume, D., & Millican, P. F. (2007). An Enquiry Concerning Human Understanding. Oxford University Press (originally 1739/1758) — Hume 因果理论原始文献；本章简化版解读的源头。
[X3] Gopnik, A. (2009). The Philosophical Baby: What Children's Minds Tell Us About Truth, Love, and the Meaning of Life. New York: Farrar, Straus and Giroux — 婴儿因果学习心理学的代表性著作；本章"Why causality? Ask babies!"一节的核心来源。
[X4] Stahl, A. E., & Feigenson, L. (2015). Observing the unexpected enhances infants' learning and exploration. Science, 348(6230), 91–94. https://doi.org/10.1126/science.aaa3799 — 11 月龄婴儿偏好“违反预期”物体的实验，是 Gopnik 理论的实验支撑。
[X5] Hernan, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — “Data cannot speak for themselves” 提法的源头；贯穿全书的因果推断权威教材。
[X6] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux — 双系统认知模型，本章用以类比人类因果学习与 ML 学习的差异。
[X7] Gutierrez, P., & Gerardy, J. (2017). Causal Inference and Uplift Modelling: A Review of the Literature. Proceedings of the 3rd International Conference on Predictive Applications and APIs, PMLR 67, 1–13 — Uplift modeling 的综述，marketer dilemma 部分的工程化出处，Ch 9–10 进一步展开。
[X8] Alexander, J. E., Audesirk, T. E., & Audesirk, G. J. (1985). Classical Conditioning in the Pond Snail Lymnaea stagnalis. The American Biology Teacher, 47(5), 295–298. https://doi.org/10.2307/4448054 — 经典条件反射在低等生物中也存在的实验证据，Hume-associative-learning 类比的生物学基础。
[X9] Archie, L. (2005). Hume's Considered View on Causality. PhilSci-Archive preprint 2247 — 对 Hume 因果观的另一种学术解读；本章框注承认其与本文简化版的差异。
[X10] Falcon, A. (2006). Aristotle on Causality. The Stanford Encyclopedia of Philosophy (2006 first edition) — Aristotle 因果观早期综述，本章四因说的另一参考。
[X11] Lorkowski, C. M. Hume on Causation. Internet Encyclopedia of Philosophy, https://iep.utm.edu/hume-causation/ — Hume 因果观的另一综述，补充 Archie 与本文简化版的中间立场。