跳转至

第12章:Can I Have a Causal Graph, Please?

作者

本章由 Aleksander Molak 撰写。涉及的核心理论参考 Gopnik (2009) 婴儿因果学习、Stahl & Feigenson (2015) Science、Popper (1959/1971) 证伪主义、Kuhn (1962) 范式转换、Tetlock (2005) 专家预测、Kahneman (2011) 可得性启发。本章是 Part 3 因果发现的"动机章"——为 Ch 13–14 的算法章做铺垫。

内容概述

本章是 Part 3 的"概念性开篇"——因果图从哪里来?三种来源:(1)Scientific insights——Popper 证伪主义 + 控实验(可控实验如 LHC,RCT 是复杂系统的"金标准")+ Simulations(TensorCell 交通仿真);(2)Personal experience and domain knowledge——从婴儿的 VoE(violation of expectation)研究到成人的可得性启发(availability heuristic)+ 专家过度自信;(3)Causal structure learning——从数据中学习因果结构,附章 13–14 算法。每一类来源都有"独特价值 + 已知局限":科学方法强但不是真理(Kuhn 范式转换、Duhem-Quine 辅助假设问题),个人经验快但充满偏见(可得性启发、移情错误),因果发现便宜但有强假设(无 unobserved confounding 难保证 + DAG 空间超指数增长)。本章不教任何算法——只给"因果图不是凭空出现的"这一关键洞察。

核心方程与概念

  • 婴儿的"科学"实验:Stahl & Feigenson (2015) Science 论文显示,11 月龄婴儿对"违反物理定律"的物体(穿墙、空中悬浮、瞬移)注视时间更长——violation of expectation (VoE) 利用 habituation 机制让婴儿"系统性选择能证伪假设的行为"。意义:人类因果推理能力先天而非完全后天学习。

  • 可处理信息 vs 接收信息(Martín 2009):感官输入约 11 million bits/秒 → 意识处理约 60 bits/秒。婴儿不能处理所有环境信息——需要 habituation 机制过滤重复刺激。因果发现的工程对应:在数据维度爆炸时,必须用 prior / 启发式 / 模型约束来减少搜索空间。

  • Popper 证伪主义(Popper 1959/1971):

  • "All Xs are x" 逻辑等价于 "no X is not-x"。
  • 不可观察所有 Xs(induction 不可靠)——但找到一个反例就能证伪
  • 关键概念:falsifiability(可证伪性)作为科学 vs 非科学的分界。
  • 批评:(i) Kuhn (1962) 范式理论——科学不是"证伪 + 重建"的线性过程,而是范式间的非连续转换;(ii) Lakatos / Feyerabend / Duhem-Quine——单一假设不能独立证伪(总需要 auxiliary assumptions);(iii) Popper 自己也称 Darwin 进化论为"非科学的"(Rosenberg & McIntyre 2020)——这一立场是 Popper 框架的著名弱点。

  • 可控实验(hard sciences):物理 / 化学的实验环境被严格控制(LHC:27 公里环形 + 100 米地下 + 多层屏蔽)。结果可复现性——Paris / Kyiv / NY / Shanghai 同结果。局限:复杂系统(人、社会、农业)实验环境不可控——这就是 RCT 出现的理由。

  • RCT(Sir Ronald Aymler Fisher 1920s 起):

  • 随机化消除偏差,允许有效 significance testing。
  • 关键误解:Senn (2020) 指出randomization ≠ balanced/homogenous groups——随机化是关于"分配与潜在结果独立",不是关于"组间统计平衡"。
  • RCT 是组水平结论——不能直接给个体效应(Kostis & Dobrzynski 2020)。但 Harrell (2023) 反驳:组水平结论常常可外推到个体。
  • 局限:昂贵、不道德、不可逆——经济 / 政策 / 临床常不可能。

  • Simulations(如 TensorCell 交通仿真):

  • 低层 mechanism 出发编码 → 观察高层行为。
  • 优势:可大规模干预,便宜。
  • 局限:模拟器精度限制真实性;复杂模拟可能很慢(需 GNN / Transformer 加速)。

  • Personal experience 的陷阱

  • 可得性启发(availability heuristic, Kahneman 2011):大脑优先访问最易想起的案例。例子:常看到男性领导者 → "领导"概念自动关联男性 → 强化性别偏见,即使有反例数据。
  • 悖论:女性被认为是"有更强领导能力"但不被认为"是更好的领导者"(Pew Research 2008)——可得性启发与显性信念矛盾。
  • Dysfunctional family patterns:童年在功能失调家庭中习得的关系模式被错误地迁移到新关系中——模型未更新

  • Domain knowledge 的局限

  • 专家在 narrow focus 时过度自信
  • Tetlock 2005 的研究专家在复杂现实预测上不优于外行,有时还更差——表明"专家的世界模型"在 narrow domain 外泛化能力差。
  • 文化传递(如"祈雨"基于错误因果模型)也是 domain knowledge 的失效源。

  • Causal structure learning(causal discovery)

  • 从数据中自动恢复因果图。
  • 优势:便宜、快。
  • 局限:
    • unconfoundedness 难保证——多数算法要求。
    • DAG 空间超指数增长\(D\) 节点有 \(D(D-1)/2\) 条可能边,DAG 空间 \(\sim O(D! 2^{D(D-1)/2})\))。
    • 不同 DAG 可能产生相同分布(observational equivalence, Peters et al. 2017)——只能恢复到 MEC。
  • 新方向:与 domain knowledge + efficient experimentation 结合(hybrid methods)。

  • 三种来源的对比

来源 强度 局限 何时用
Scientific insights (RCT, lab experiment) 昂贵 / 不道德 / 不可逆 关键医学 / 政策决策
Personal / domain knowledge 偏见 / 过度自信 探索阶段 / 无 RCT 时的 fallback
Causal structure learning 便宜 强假设 / observational equivalence 大数据 + 弱先验时
  • Hybrid methods(作者推荐):"domain expertise + causal discovery + efficient experimentation"——这是 Ch 13–14 的核心方法论,gCastle 库明确支持"先 freeze 某些边"(prior knowledge)。

关键数学形式化

为后续章节做铺垫,本章的非算法性概念可形式化为如下数学量:

  • DAG 空间大小\(D\) 个节点的有向无环图可能数目为 $\(N_{\mathrm{DAG}}(D) = \sum_{k=1}^{D} \binom{D}{k} \cdot (\text{DAG on } k \text{ topologically ordered nodes}) \sim O\!\left(\frac{D!}{c^{D}} \, 2^{\binom{D}{2}}\right),\)$ 其中 \(c \approx 0.49\)(OEIS A003024)。含义\(D=10\) 节点时约 \(4.2 \times 10^{18}\) 个候选 DAG——精确搜索困难;\(D=50\) 节点时约 \(2.4 \times 10^{362}\) 个——纯组合搜索不可能。

  • 观测等价的 equivalence class (MEC):两个 DAG \(G_1, G_2\) 观测等价当且仅当对所有分布 \(P\): $\(\mathcal{I}(G_1) = \mathcal{I}(G_2), \qquad \mathcal{I}(G) = \bigl\{P : P \text{ Markov w.r.t. } G\bigr\}.\)$ 含义:因果发现只能恢复到 Markov equivalence class,不能保证唯一 DAG。

  • unconfoundedness 假设的形式化:给定因果图 \(G\),隐变量集合 \(U\),处理 \(T\),结果 \(Y\),covariates \(X\): $\(Y(t) \perp\!\!\!\perp T \mid X \quad \text{whenever} \quad X \text{ blocks all back-door paths from } T \text{ to } Y \text{ in } G.\)$ 含义:这是几乎所有 causal discovery / causal inference 算法的核心假设;现实数据中难证伪。

  • 可用信息量估算(Martín 2009 的简化):成人感知带宽 $\(B_{\text{sense}} \approx 1.1 \times 10^{7}\ \text{bits/s}, \qquad B_{\text{conscious}} \approx 6.0 \times 10^{1}\ \text{bits/s},\)$ $\(\text{Compression ratio} = \frac{B_{\text{conscious}}}{B_{\text{sense}}} \approx 5.5 \times 10^{-6}.\)$ 含义:大脑必须大幅压缩信息流——这从物理上证明了 habituation / prior 使用的必要性。

  • 习惯化 (Habituation) 的指数衰减模型: $\(R(t) = R_{\infty} + (R_0 - R_{\infty}) \cdot e^{-\lambda t}, \qquad \lambda > 0,\)$ 其中 \(R(t)\) 是对刺激的反应强度,\(\lambda\) 是 habituation rate。含义:重复刺激的注意力衰减——这与 ML 中"regularization"、"early stopping"在认知上的对应。

  • 专家预测精度(Tetlock 2005 模型):专家 \(i\) 在任务 \(j\) 上的 Brier score $\(\mathrm{BS}_{ij} = \frac{1}{K} \sum_{k=1}^{K} (p_{ijk} - o_{ijk})^{2},\)$ 其中 \(p_{ijk}\) 是预测概率,\(o_{ijk}\) 是 binary outcome。核心发现: $\(\mathbb{E}\bigl[\mathrm{BS}_{\text{expert}}\bigr] \approx \mathbb{E}\bigl[\mathrm{BS}_{\text{chimp}}\bigr] \approx \mathbb{E}\bigl[\mathrm{BS}_{\text{layman}}\bigr].\)$ 含义:在 Tetlock 的"复杂现实"任务上,专家不显著优于随机

  • 因果结构学习的形式化目标:给定 \(n\) 个 i.i.d. 样本 \(\{X_i\}_{i=1}^{n} \sim P\),求 $\(\hat{G} = \arg\min_{G \in \mathrm{DAG}(D)} \;\mathrm{Score}(G, \{X_i\}),\)$ 其中 \(\mathrm{Score}\) 可为 BIC / BDeu / MDL 等。核心挑战:搜索空间是 DAG 空间(组合 / 非凸 / 超指数大)。

关键结论

  • 因果图不是凭空出现的——它来自 (a) 科学实验 / RCT、(b) 专家知识 + 个人经验、(c) 数据驱动的因果发现、(d) 三者结合。任何工程化的因果项目都需要明确"我的因果图从哪来"
  • 婴儿是天生的因果实验者(Gopnik 2009; Stahl & Feigenson 2015)——VoE + 主动实验是 infant 的"科学方法"。这与 Popper 证伪主义的精神一致:人类因果推理的认知基础是证伪而非证实
  • RCT 不是万能的:Senn (2020) 明确随机化 ≠ 平衡组;Kostis & Dobrzynski (2020) 警告 RCT 给组水平结论;Harrell (2023) 反驳——RCT 仍是复杂系统的"金标准",但需理解其局限。
  • Personal experience 充满陷阱:可得性启发 + 文化传递 + 过度自信——专家预测不优于外行(Tetlock 2005)。生产中"领域专家 + 数据分析"必须互相验证
  • Causal structure learning 的两大限制:observational equivalence(只能恢复到 MEC)+ unconfoundedness 假设(多数算法)。Hybrid methods(领域 + 算法 + 实验)是工程化方向。
  • 三种来源应"组合使用":纯任一种都不够——纯 RCT 慢而贵、纯专家有偏见、纯算法有强假设。Molak 推荐组合:把领域知识作为 prior,因果发现作为后验搜索,主动实验作为验证。

挑战和开放性问题

  • RCT 与"真实世界"的距离:Harrell (2023) 强调 RCT 经常不能 mimic clinical practice——严格的入组标准让 RCT 结论难外推到实际患者。生产中:"RCT-supported 效应"与"real-world 效应"常显著不同。
  • 可得性启发的"系统性":Kahneman 2011 指出可得性启发不是偶发错误,是大脑默认工作模式。生产中人机协作的算法决策仍受人类启发式影响——"用 ML 替代人"未必消除偏见。
  • 专家 overconfidence 的不可预测性:Tetlock 2005 显示专家准确率差异巨大("foxes" vs "hedgehogs")——用单一专家判断的高风险决策不可靠。生产中应多专家 + 预测市场
  • Causal discovery 的"算法联邦"现象:PC / GES / NOTEARS / DECI / BCD-Nets / GANITE / RL-BIC 等 20+ 算法各有所长——没有"best algorithm"。生产中需要 multiple runs + sensitivity。
  • DAG 空间超指数增长:当 \(D = 100\) 时,DAG 空间 \(2^{4950}\)——所有精确搜索算法失效。连续优化方法(NOTEARS, Zheng et al. 2018)把 DAG 约束编码为矩阵约束——但只能给"近似最优"DAG
  • Hybrid methods 的工程化:把"专家 prior + 因果发现 + 实验验证"组合成可重复 pipeline 仍是开放问题。gCastle / causal-learn 提供基础工具,但集成度低,需要工程团队自行搭建。

个人反思与批判性分析

本章是 Part 3 的"哲学铺垫"——讨论因果图的来源比"算法"更重要,因为没有可靠的因果图,所有算法都白费。值得讨论的几个层面:

  • 婴儿 vs 专家 vs 算法 的认知光谱:婴儿用 VoE + 主动实验建立"物理直觉"(先验);成人用专业知识 + 经验建立"领域模型"(先验 + 经验);算法用数据 + prior 学习"图结构"(数据 + 先验)。三者的共同点:(a) 都基于某种 prior;(b) 都试图证伪现有假设;(c) 都被"可得性"偏见影响。生产中的工程含义不要相信任何"无 prior 的纯数据因果发现"——这违反人类认知的物理事实。
  • "Hybrid methods"是工程化的金标准:Molak 推荐"domain + data + experiment"三件套——这一思想与 Pearl 的"do-calculus + graph + data"框架完全一致。与 Pearl 不同:Molak 强调算法层面的 hybrid(gCastle 支持 prior injection),不只是方法论层的 hybrid。生产中:(a) 画因果图(专家);(b) 标记哪些边可信(prior high-confidence)、哪些待算法确定(prior uncertain);(c) 跑因果发现 + sensitivity analysis;(d) 设计小型实验验证关键边。
  • "RCT 是金标准"的批判性理解:Kostis & Dobrzynski (2020) 与 Harrell (2023) 的争论揭示:RCT 优势不在"组间无差异",而在"分配与潜在结果独立"——这是 Neyman 1923 / Rubin 1974 框架的核心。生产中:把 RCT 当"exogeneity 来源"而非"绝对真理"——RCT 数据 + 观察数据可结合,做 sensitivity analysis(Cinelli & Hazlett 2020 风格)。
  • 可得性启发的"破坏性":Kahneman 2011 的可得性启发 + Tetlock 2005 的专家 overconfidence 共同提示:人类因果判断在"高频 + 视觉化"信息下系统性失真。生产中数据呈现方式会影响专家判断——例如 showing "因果图"比 showing "回归系数"更不容易产生误读。这一发现直接启发 DoWhy 的"graph-first"设计哲学
  • Causal structure learning 的"算法联邦"vs"无银弹":与 ML 监督学习类似,没有 universally best 算法——PC / GES / NOTEARS / DECI 各有适用场景。生产建议:(a) 跑 multiple algorithms(PC + GES + NOTEARS);(b) 看哪些边在多个算法中都出现(高 confidence);(c) 仅保留 high-confidence 边做后续因果推断;(d) 低 confidence 边进入"待专家确认"队列。
  • 本章"婴儿实验"开篇的"工程隐喻":把婴儿的 VoE 研究放进来不是装饰——它是"工程实践中"验证假设的认知模型生产中"哪个 feature 是 confounder"的不确定性与婴儿"哪个物理量是 unusual"的不确定性结构同构。这一类比暗示:(a) 工程师应主动寻找"反直觉"数据点(VoE);(b) 不要被"数据自然性"麻痹。
  • 对个人研究的启发:我在做血管生物力学时,因果图的来源是最大的工程难题。当前实践:(a) 专家(生理学家 + 临床医生)画"主图"——年龄、性别、血压、吸烟 → 动脉硬化 → 心血管事件;(b) 因果发现(PC / GES)做敏感性分析——看数据中自动发现的 confounder 集合与专家图是否一致;(c) 小型 RCT 验证关键边(最困难的环节——血管数据难随机化)。Molak 推荐的 hybrid 流程与我的实践一致——这一致性给了我信心,本书的方法论在生物医学中有现实工程价值
  • 本章没教的"实践能力":尽管强调"因果图从哪来",作者没给具体的"专家画图 workflow"——比如 (a) 怎么让多个专家的图对齐;(b) 怎么处理专家分歧;(c) 怎么用 Bayesian 方法把多专家 prior 合并。这些工程细节在 gCastle / DoWhy 中都未直接支持——需要团队自行设计。生产建议:在 Phase 0 阶段,把"专家画图 + 因果发现"做成"必做 checkpoint"——比"直接跑算法"重要 10 倍。

重要参考文献

  • [X1] Gopnik, A. (2009). The Philosophical Baby: What Children's Minds Tell Us About Truth, Love, and the Meaning of Life. Farrar, Straus and Giroux — 婴儿因果学习的代表性著作;本章 VoE 的认知基础。
  • [X2] Stahl, A. E., & Feigenson, L. (2015). Observing the unexpected enhances infants' learning and exploration. Science, 348(6230), 91–94 — VoE 范式的关键实验。
  • [X3] Popper, K. (1959). The Logic of Scientific Discovery. Basic Books — 证伪主义的奠基著作。
  • [X4] Popper, K. (1971). Conjectural Knowledge: My Solution of the Problem of Induction. Revue Internationale de Philosophie, 25(95/96), 167–197 — Popper 后期对归纳问题的回应。
  • [X5] Kuhn, T. S. (1962). The Structure of Scientific Revolutions. University of Chicago Press — 范式转换理论;本章 Popper 批判的来源。
  • [X6] Rosenberg, A., & McIntyre, L. (2020). Philosophy of Science: A Contemporary Introduction (4th ed.). Routledge — Popper 框架的批判性回顾。
  • [X7] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux — 可得性启发等认知偏见的系统化论述。
  • [X8] Tetlock, P. E. (2005). Expert Political Judgment: How Good Is It? How Can We Know?. Princeton University Press — 专家预测的实证研究;"foxes vs hedgehogs"。
  • [X9] Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown — Tetlock 后续的"superforecaster"研究。
  • [X10] Hall, N. S. (2007). R. A. Fisher and his advocacy of randomization. Journal of the History of Biology, 40(2), 295–325 — Fisher 与随机化设计的历史。
  • [X11] Senn, S. S. (2020). Randomisation is not about balance, nor about homogeneity but about randomness. Error Statistics — 随机化的精确含义论述。
  • [X12] Senn, S. S. (2021). Statistical Issues in Drug Development (3rd ed.). Wiley — 临床试验统计的标准教材。
  • [X13] Kostis, J. B., & Dobrzynski, J. M. (2020). Limitations of Randomized Clinical Trials. The American Journal of Cardiology, 129, 109–115 — RCT 局限的医学综述。
  • [X14] Harrell, F. (2023, February 14). Randomized Clinical Trials Do Not Mimic Clinical Practice, Thank Goodness. Statistical Thinking. https://www.fharrell.com/post/rct-mimic/ — RCT 的"模拟性"反思。
  • [X15] Pew Research Center. (2008). Men or Women: Who's the Better Leader? A Paradox in Public Attitudes. https://www.pewresearch.org/social-trends/2008/08/25/men-or-women-whos-the-better-leader/ — 性别领导力的公共态度悖论。
  • [X16] Zenger, J., & Folkman, J. (2020, December 30). Research: Women Are Better Leaders During a Crisis. Harvard Business Review. https://hbr.org/2020/12/research-women-are-better-leaders-during-a-crisis — 危机中女性领导力优势的实证。
  • [X17] Martín, F. M. (2009). The Thermodynamics of Human Reaction Times. arXiv:0908.3170 — 信息处理带宽的来源。
  • [X18] Muenssinger, J., et al. (2013). Auditory habituation in the fetus and neonate: an fMEG study. Developmental Science, 16(2), 287–295 — 胎儿 / 新生儿 habituation 的 fMEG 研究。
  • [X19] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — Observational equivalence 与因果发现的形式化。
  • [X20] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 因果图的本体论地位论述。
  • [X21] Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — RCT 的现代流行病学论述。
  • [X22] Pearl, J., & Mackenzie, D. (2019). The Book of Why. Penguin Books — 因果推断的科普背景。
  • [X23] Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search (2nd ed.). MIT Press — PC 算法 + 因果发现的开创性教材。
  • [X24] Zheng, X., Aragam, B., Ravikumar, P., & Xing, E. P. (2018). DAGs with NO TEARS: Continuous Optimization for Structure Learning. NeurIPS 2018 — NOTEARS,连续优化的因果发现算法(隐式引用)。
  • [X25] Cinelli, C., & Hazlett, C. (2020). Making Sense of Sensitivity: Extending Omitted Variable Bias. JRSS B, 81(1), 39–67 — 敏感性分析的现代框架(隐式引用)。
  • [X26] Gora, P. et al. (TensorCell). https://bit.ly/TensorCell — 交通仿真 + ML 优化的研究小组;作者作为案例引用。