第12章：Can I Have a Causal Graph, Please?

作者

本章由 Aleksander Molak 撰写。涉及的核心理论参考 Gopnik (2009) 婴儿因果学习、Stahl & Feigenson (2015) Science、Popper (1959/1971) 证伪主义、Kuhn (1962) 范式转换、Tetlock (2005) 专家预测、Kahneman (2011) 可得性启发。本章是 Part 3 因果发现的"动机章"——为 Ch 13–14 的算法章做铺垫。

内容概述

本章是 Part 3 的"概念性开篇"——因果图从哪里来？三种来源：（1）Scientific insights——Popper 证伪主义 + 控实验（可控实验如 LHC，RCT 是复杂系统的"金标准"）+ Simulations（TensorCell 交通仿真）；（2）Personal experience and domain knowledge——从婴儿的 VoE（violation of expectation）研究到成人的可得性启发（availability heuristic）+ 专家过度自信；（3）Causal structure learning——从数据中学习因果结构，附章 13–14 算法。每一类来源都有"独特价值 + 已知局限"：科学方法强但不是真理（Kuhn 范式转换、Duhem-Quine 辅助假设问题），个人经验快但充满偏见（可得性启发、移情错误），因果发现便宜但有强假设（无 unobserved confounding 难保证 + DAG 空间超指数增长）。本章不教任何算法——只给"因果图不是凭空出现的"这一关键洞察。

核心方程与概念

婴儿的"科学"实验：Stahl & Feigenson (2015) Science 论文显示，11 月龄婴儿对"违反物理定律"的物体（穿墙、空中悬浮、瞬移）注视时间更长——violation of expectation (VoE) 利用 habituation 机制让婴儿"系统性选择能证伪假设的行为"。意义：人类因果推理能力先天而非完全后天学习。
可处理信息 vs 接收信息（Martín 2009）：感官输入约 11 million bits/秒 → 意识处理约 60 bits/秒。婴儿不能处理所有环境信息——需要 habituation 机制过滤重复刺激。因果发现的工程对应：在数据维度爆炸时，必须用 prior / 启发式 / 模型约束来减少搜索空间。
Popper 证伪主义（Popper 1959/1971）：
"All Xs are x" 逻辑等价于 "no X is not-x"。
不可观察所有 Xs（induction 不可靠）——但找到一个反例就能证伪。
关键概念：falsifiability（可证伪性）作为科学 vs 非科学的分界。
批评：(i) Kuhn (1962) 范式理论——科学不是"证伪 + 重建"的线性过程，而是范式间的非连续转换；(ii) Lakatos / Feyerabend / Duhem-Quine——单一假设不能独立证伪（总需要 auxiliary assumptions）；(iii) Popper 自己也称 Darwin 进化论为"非科学的"（Rosenberg & McIntyre 2020）——这一立场是 Popper 框架的著名弱点。
可控实验（hard sciences）：物理 / 化学的实验环境被严格控制（LHC：27 公里环形 + 100 米地下 + 多层屏蔽）。结果可复现性——Paris / Kyiv / NY / Shanghai 同结果。局限：复杂系统（人、社会、农业）实验环境不可控——这就是 RCT 出现的理由。
RCT（Sir Ronald Aymler Fisher 1920s 起）：
随机化消除偏差，允许有效 significance testing。
关键误解：Senn (2020) 指出randomization ≠ balanced/homogenous groups——随机化是关于"分配与潜在结果独立"，不是关于"组间统计平衡"。
RCT 是组水平结论——不能直接给个体效应（Kostis & Dobrzynski 2020）。但 Harrell (2023) 反驳：组水平结论常常可外推到个体。
局限：昂贵、不道德、不可逆——经济 / 政策 / 临床常不可能。
Simulations（如 TensorCell 交通仿真）：
从低层 mechanism 出发编码 → 观察高层行为。
优势：可大规模干预，便宜。
局限：模拟器精度限制真实性；复杂模拟可能很慢（需 GNN / Transformer 加速）。
Personal experience 的陷阱：
可得性启发（availability heuristic, Kahneman 2011）：大脑优先访问最易想起的案例。例子：常看到男性领导者 → "领导"概念自动关联男性 → 强化性别偏见，即使有反例数据。
悖论：女性被认为是"有更强领导能力"但不被认为"是更好的领导者"（Pew Research 2008）——可得性启发与显性信念矛盾。
Dysfunctional family patterns：童年在功能失调家庭中习得的关系模式被错误地迁移到新关系中——模型未更新。
Domain knowledge 的局限：
专家在 narrow focus 时过度自信。
Tetlock 2005 的研究：专家在复杂现实预测上不优于外行，有时还更差——表明"专家的世界模型"在 narrow domain 外泛化能力差。
文化传递（如"祈雨"基于错误因果模型）也是 domain knowledge 的失效源。
Causal structure learning（causal discovery）：
从数据中自动恢复因果图。
优势：便宜、快。
局限：
- unconfoundedness 难保证——多数算法要求。
- DAG 空间超指数增长（$D$ 节点有 $D(D-1)/2$ 条可能边，DAG 空间 $\sim O(D! 2^{D(D-1)/2})$）。
- 不同 DAG 可能产生相同分布（observational equivalence, Peters et al. 2017）——只能恢复到 MEC。
新方向：与 domain knowledge + efficient experimentation 结合（hybrid methods）。
三种来源的对比：

来源	强度	局限	何时用
Scientific insights (RCT, lab experiment)	强	昂贵 / 不道德 / 不可逆	关键医学 / 政策决策
Personal / domain knowledge	快	偏见 / 过度自信	探索阶段 / 无 RCT 时的 fallback
Causal structure learning	便宜	强假设 / observational equivalence	大数据 + 弱先验时

Hybrid methods（作者推荐）："domain expertise + causal discovery + efficient experimentation"——这是 Ch 13–14 的核心方法论，gCastle 库明确支持"先 freeze 某些边"（prior knowledge）。

关键数学形式化

为后续章节做铺垫，本章的非算法性概念可形式化为如下数学量：

DAG 空间大小：$D$ 个节点的有向无环图可能数目为 $$N_{\mathrm{DAG}}(D) = \sum_{k=1}^{D} \binom{D}{k} \cdot (\text{DAG on } k \text{ topologically ordered nodes}) \sim O\!\left(\frac{D!}{c^{D}} \, 2^{\binom{D}{2}}\right),$$ 其中 $c \approx 0.49$（OEIS A003024）。含义：$D=10$ 节点时约 $4.2 \times 10^{18}$ 个候选 DAG——精确搜索困难；$D=50$ 节点时约 $2.4 \times 10^{362}$ 个——纯组合搜索不可能。
观测等价的 equivalence class (MEC)：两个 DAG $G_1, G_2$ 观测等价当且仅当对所有分布 $P$： $$\mathcal{I}(G_1) = \mathcal{I}(G_2), \qquad \mathcal{I}(G) = \bigl\{P : P \text{ Markov w.r.t. } G\bigr\}.$$ 含义：因果发现只能恢复到 Markov equivalence class，不能保证唯一 DAG。
unconfoundedness 假设的形式化：给定因果图 $G$，隐变量集合 $U$，处理 $T$，结果 $Y$，covariates $X$： $$Y(t) \perp\!\!\!\perp T \mid X \quad \text{whenever} \quad X \text{ blocks all back-door paths from } T \text{ to } Y \text{ in } G.$$ 含义：这是几乎所有 causal discovery / causal inference 算法的核心假设；现实数据中难证伪。
可用信息量估算（Martín 2009 的简化）：成人感知带宽 $$B_{\text{sense}} \approx 1.1 \times 10^{7}\ \text{bits/s}, \qquad B_{\text{conscious}} \approx 6.0 \times 10^{1}\ \text{bits/s},$$ $$\text{Compression ratio} = \frac{B_{\text{conscious}}}{B_{\text{sense}}} \approx 5.5 \times 10^{-6}.$$ 含义：大脑必须大幅压缩信息流——这从物理上证明了 habituation / prior 使用的必要性。
习惯化 (Habituation) 的指数衰减模型： $$R(t) = R_{\infty} + (R_0 - R_{\infty}) \cdot e^{-\lambda t}, \qquad \lambda > 0,$$ 其中 $R(t)$ 是对刺激的反应强度，$\lambda$ 是 habituation rate。含义：重复刺激的注意力衰减——这与 ML 中"regularization"、"early stopping"在认知上的对应。
专家预测精度（Tetlock 2005 模型）：专家 $i$ 在任务 $j$ 上的 Brier score $$\mathrm{BS}_{ij} = \frac{1}{K} \sum_{k=1}^{K} (p_{ijk} - o_{ijk})^{2},$$ 其中 $p_{ijk}$ 是预测概率，$o_{ijk}$ 是 binary outcome。核心发现： $$\mathbb{E}\bigl[\mathrm{BS}_{\text{expert}}\bigr] \approx \mathbb{E}\bigl[\mathrm{BS}_{\text{chimp}}\bigr] \approx \mathbb{E}\bigl[\mathrm{BS}_{\text{layman}}\bigr].$$ 含义：在 Tetlock 的"复杂现实"任务上，专家不显著优于随机。
因果结构学习的形式化目标：给定 $n$ 个 i.i.d. 样本 $\{X_i\}_{i=1}^{n} \sim P$，求 $$\hat{G} = \arg\min_{G \in \mathrm{DAG}(D)} \;\mathrm{Score}(G, \{X_i\}),$$ 其中 $\mathrm{Score}$ 可为 BIC / BDeu / MDL 等。核心挑战：搜索空间是 DAG 空间（组合 / 非凸 / 超指数大）。

关键结论

因果图不是凭空出现的——它来自 (a) 科学实验 / RCT、(b) 专家知识 + 个人经验、(c) 数据驱动的因果发现、(d) 三者结合。任何工程化的因果项目都需要明确"我的因果图从哪来"。
婴儿是天生的因果实验者（Gopnik 2009; Stahl & Feigenson 2015）——VoE + 主动实验是 infant 的"科学方法"。这与 Popper 证伪主义的精神一致：人类因果推理的认知基础是证伪而非证实。
RCT 不是万能的：Senn (2020) 明确随机化 ≠ 平衡组；Kostis & Dobrzynski (2020) 警告 RCT 给组水平结论；Harrell (2023) 反驳——RCT 仍是复杂系统的"金标准"，但需理解其局限。
Personal experience 充满陷阱：可得性启发 + 文化传递 + 过度自信——专家预测不优于外行（Tetlock 2005）。生产中"领域专家 + 数据分析"必须互相验证。
Causal structure learning 的两大限制：observational equivalence（只能恢复到 MEC）+ unconfoundedness 假设（多数算法）。Hybrid methods（领域 + 算法 + 实验）是工程化方向。
三种来源应"组合使用"：纯任一种都不够——纯 RCT 慢而贵、纯专家有偏见、纯算法有强假设。Molak 推荐组合：把领域知识作为 prior，因果发现作为后验搜索，主动实验作为验证。

挑战和开放性问题

RCT 与"真实世界"的距离：Harrell (2023) 强调 RCT 经常不能 mimic clinical practice——严格的入组标准让 RCT 结论难外推到实际患者。生产中："RCT-supported 效应"与"real-world 效应"常显著不同。
可得性启发的"系统性"：Kahneman 2011 指出可得性启发不是偶发错误，是大脑默认工作模式。生产中人机协作的算法决策仍受人类启发式影响——"用 ML 替代人"未必消除偏见。
专家 overconfidence 的不可预测性：Tetlock 2005 显示专家准确率差异巨大（"foxes" vs "hedgehogs"）——用单一专家判断的高风险决策不可靠。生产中应多专家 + 预测市场。
Causal discovery 的"算法联邦"现象：PC / GES / NOTEARS / DECI / BCD-Nets / GANITE / RL-BIC 等 20+ 算法各有所长——没有"best algorithm"。生产中需要 multiple runs + sensitivity。
DAG 空间超指数增长：当 $D = 100$ 时，DAG 空间 $2^{4950}$——所有精确搜索算法失效。连续优化方法（NOTEARS, Zheng et al. 2018）把 DAG 约束编码为矩阵约束——但只能给"近似最优"DAG。
Hybrid methods 的工程化：把"专家 prior + 因果发现 + 实验验证"组合成可重复 pipeline 仍是开放问题。gCastle / causal-learn 提供基础工具，但集成度低，需要工程团队自行搭建。

个人反思与批判性分析

本章是 Part 3 的"哲学铺垫"——讨论因果图的来源比"算法"更重要，因为没有可靠的因果图，所有算法都白费。值得讨论的几个层面：

婴儿 vs 专家 vs 算法的认知光谱：婴儿用 VoE + 主动实验建立"物理直觉"（先验）；成人用专业知识 + 经验建立"领域模型"（先验 + 经验）；算法用数据 + prior 学习"图结构"（数据 + 先验）。三者的共同点：(a) 都基于某种 prior；(b) 都试图证伪现有假设；(c) 都被"可得性"偏见影响。生产中的工程含义：不要相信任何"无 prior 的纯数据因果发现"——这违反人类认知的物理事实。
"Hybrid methods"是工程化的金标准：Molak 推荐"domain + data + experiment"三件套——这一思想与 Pearl 的"do-calculus + graph + data"框架完全一致。与 Pearl 不同：Molak 强调算法层面的 hybrid（gCastle 支持 prior injection），不只是方法论层的 hybrid。生产中：(a) 画因果图（专家）；(b) 标记哪些边可信（prior high-confidence）、哪些待算法确定（prior uncertain）；(c) 跑因果发现 + sensitivity analysis；(d) 设计小型实验验证关键边。
"RCT 是金标准"的批判性理解：Kostis & Dobrzynski (2020) 与 Harrell (2023) 的争论揭示：RCT 优势不在"组间无差异"，而在"分配与潜在结果独立"——这是 Neyman 1923 / Rubin 1974 框架的核心。生产中：把 RCT 当"exogeneity 来源"而非"绝对真理"——RCT 数据 + 观察数据可结合，做 sensitivity analysis（Cinelli & Hazlett 2020 风格）。
可得性启发的"破坏性"：Kahneman 2011 的可得性启发 + Tetlock 2005 的专家 overconfidence 共同提示：人类因果判断在"高频 + 视觉化"信息下系统性失真。生产中数据呈现方式会影响专家判断——例如 showing "因果图"比 showing "回归系数"更不容易产生误读。这一发现直接启发 DoWhy 的"graph-first"设计哲学。
Causal structure learning 的"算法联邦"vs"无银弹"：与 ML 监督学习类似，没有 universally best 算法——PC / GES / NOTEARS / DECI 各有适用场景。生产建议：(a) 跑 multiple algorithms（PC + GES + NOTEARS）；(b) 看哪些边在多个算法中都出现（高 confidence）；(c) 仅保留 high-confidence 边做后续因果推断；(d) 低 confidence 边进入"待专家确认"队列。
本章"婴儿实验"开篇的"工程隐喻"：把婴儿的 VoE 研究放进来不是装饰——它是"工程实践中"验证假设的认知模型。生产中"哪个 feature 是 confounder"的不确定性与婴儿"哪个物理量是 unusual"的不确定性结构同构。这一类比暗示：(a) 工程师应主动寻找"反直觉"数据点（VoE）；(b) 不要被"数据自然性"麻痹。
对个人研究的启发：我在做血管生物力学时，因果图的来源是最大的工程难题。当前实践：(a) 专家（生理学家 + 临床医生）画"主图"——年龄、性别、血压、吸烟 → 动脉硬化 → 心血管事件；(b) 因果发现（PC / GES）做敏感性分析——看数据中自动发现的 confounder 集合与专家图是否一致；(c) 小型 RCT 验证关键边（最困难的环节——血管数据难随机化）。Molak 推荐的 hybrid 流程与我的实践一致——这一致性给了我信心，本书的方法论在生物医学中有现实工程价值。
本章没教的"实践能力"：尽管强调"因果图从哪来"，作者没给具体的"专家画图 workflow"——比如 (a) 怎么让多个专家的图对齐；(b) 怎么处理专家分歧；(c) 怎么用 Bayesian 方法把多专家 prior 合并。这些工程细节在 gCastle / DoWhy 中都未直接支持——需要团队自行设计。生产建议：在 Phase 0 阶段，把"专家画图 + 因果发现"做成"必做 checkpoint"——比"直接跑算法"重要 10 倍。

重要参考文献

[X1] Gopnik, A. (2009). The Philosophical Baby: What Children's Minds Tell Us About Truth, Love, and the Meaning of Life. Farrar, Straus and Giroux — 婴儿因果学习的代表性著作；本章 VoE 的认知基础。
[X2] Stahl, A. E., & Feigenson, L. (2015). Observing the unexpected enhances infants' learning and exploration. Science, 348(6230), 91–94 — VoE 范式的关键实验。
[X3] Popper, K. (1959). The Logic of Scientific Discovery. Basic Books — 证伪主义的奠基著作。
[X4] Popper, K. (1971). Conjectural Knowledge: My Solution of the Problem of Induction. Revue Internationale de Philosophie, 25(95/96), 167–197 — Popper 后期对归纳问题的回应。
[X5] Kuhn, T. S. (1962). The Structure of Scientific Revolutions. University of Chicago Press — 范式转换理论；本章 Popper 批判的来源。
[X6] Rosenberg, A., & McIntyre, L. (2020). Philosophy of Science: A Contemporary Introduction (4th ed.). Routledge — Popper 框架的批判性回顾。
[X7] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux — 可得性启发等认知偏见的系统化论述。
[X8] Tetlock, P. E. (2005). Expert Political Judgment: How Good Is It? How Can We Know?. Princeton University Press — 专家预测的实证研究；"foxes vs hedgehogs"。
[X9] Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown — Tetlock 后续的"superforecaster"研究。
[X10] Hall, N. S. (2007). R. A. Fisher and his advocacy of randomization. Journal of the History of Biology, 40(2), 295–325 — Fisher 与随机化设计的历史。
[X11] Senn, S. S. (2020). Randomisation is not about balance, nor about homogeneity but about randomness. Error Statistics — 随机化的精确含义论述。
[X12] Senn, S. S. (2021). Statistical Issues in Drug Development (3rd ed.). Wiley — 临床试验统计的标准教材。
[X13] Kostis, J. B., & Dobrzynski, J. M. (2020). Limitations of Randomized Clinical Trials. The American Journal of Cardiology, 129, 109–115 — RCT 局限的医学综述。
[X14] Harrell, F. (2023, February 14). Randomized Clinical Trials Do Not Mimic Clinical Practice, Thank Goodness. Statistical Thinking. https://www.fharrell.com/post/rct-mimic/ — RCT 的"模拟性"反思。
[X15] Pew Research Center. (2008). Men or Women: Who's the Better Leader? A Paradox in Public Attitudes. https://www.pewresearch.org/social-trends/2008/08/25/men-or-women-whos-the-better-leader/ — 性别领导力的公共态度悖论。
[X16] Zenger, J., & Folkman, J. (2020, December 30). Research: Women Are Better Leaders During a Crisis. Harvard Business Review. https://hbr.org/2020/12/research-women-are-better-leaders-during-a-crisis — 危机中女性领导力优势的实证。
[X17] Martín, F. M. (2009). The Thermodynamics of Human Reaction Times. arXiv:0908.3170 — 信息处理带宽的来源。
[X18] Muenssinger, J., et al. (2013). Auditory habituation in the fetus and neonate: an fMEG study. Developmental Science, 16(2), 287–295 — 胎儿 / 新生儿 habituation 的 fMEG 研究。
[X19] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — Observational equivalence 与因果发现的形式化。
[X20] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 因果图的本体论地位论述。
[X21] Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — RCT 的现代流行病学论述。
[X22] Pearl, J., & Mackenzie, D. (2019). The Book of Why. Penguin Books — 因果推断的科普背景。
[X23] Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search (2nd ed.). MIT Press — PC 算法 + 因果发现的开创性教材。
[X24] Zheng, X., Aragam, B., Ravikumar, P., & Xing, E. P. (2018). DAGs with NO TEARS: Continuous Optimization for Structure Learning. NeurIPS 2018 — NOTEARS，连续优化的因果发现算法（隐式引用）。
[X25] Cinelli, C., & Hazlett, C. (2020). Making Sense of Sensitivity: Extending Omitted Variable Bias. JRSS B, 81(1), 39–67 — 敏感性分析的现代框架（隐式引用）。
[X26] Gora, P. et al. (TensorCell). https://bit.ly/TensorCell — 交通仿真 + ML 优化的研究小组；作者作为案例引用。