第二章:推断因果理论(A Theory of Inferred Causation)
阅读笔记
一、章节概述
本章是《Causality》一书中最为核心的章节之一,系统性地建立了从观测数据中推断因果关系的理论框架。Pearl 在本章中回答了一个根本性的问题:给定一组变量的联合概率分布,在没有干预实验的情况下,我们能否以及如何识别出变量之间的因果结构?
全章共分为九个章节(2.1–2.9),核心内容包括:从基本直觉出发,阐述因果发现的归纳框架;引入最小性(minimality)和稳定性(stability)原则作为推断因果的规范基础;详细推导 IC 算法(Inductive Causation)和 IC* 算法,用于从观测分布中恢复 DAG 结构及含隐变量的潜结构;提出局部因果关系判定准则(潜在原因、真因、伪关联);最后探讨非时间性因果与统计时间的关系。
本章的理论贡献在于:证明了某些统计依赖模式只能从因果方向性的角度给出有意义的解释,而不需要预先假设所有变量都被观测到,也不需要时间顺序的先验知识。这从根本上突破了"没有操纵就没有因果"(no causation without manipulation)的悲观论断,为因果发现提供了坚实的数学基础。
二、关键问题与研究动机
2.1 核心科学问题
人类(或一个人工智能系统)仅通过被动观测数据,能否发现变量之间的因果关系?这一问题的困难在于:统计方法驱动的是协变性(covariation)分析,而协变并不等于因果。经典统计学家 Fisher(1935)曾警告,除非事先知道所有因果相关因素,或者能够精心操纵某些变量,否则不可能做出真正的因果推断。Cartwright(1989)也提出"没有原因进,就没有原因出"(No causes in, no causes out)的著名论断。
然而,现实中我们既无法穷尽所有因果因素,也往往无法进行干预实验。那么,因果知识究竟是如何从经验中获得的?
2.2 因果推断的线索来源
Pearl 在本章中探索的线索来自统计关联的特定模式——这些模式只有在因果方向性的框架下才能获得有意义的解释。一个典型例子是三变量之间的非传递依赖模式:A 与 B 相关,B 与 C 相关,但 A 与 C 条件独立(A ⟂̸ C | ∅)。当要求人们给出满足这一依赖模式的事件例子时,人们几乎无一例外地给出 A 和 C 作为两个独立的原因、B 作为它们共同结果的场景,即 A → B ← C(以两个硬币正面朝上时铃声响起为例)。
这种思维实验告诉我们:某些依赖模式在概念上天然对应于特定的因果方向性,而非其他方向性。Reichenbach(1956)最早提出这些模式是自然界的特征,与热力学第二定律相关。Rebane 和 Pearl(1987)则反过来提出:能否利用三种基本因果子结构(X → Y → Z、X ← Y → Z、X → Y ← Z)所对应的不同依赖模式来揭示数据生成过程中的真实因果影响?
2.3 研究动机:从 Rebane-Pearl 算法到通用框架
本章的直接动机是将 Rebane-Pearl 算法从简单的多树(polytree)推广到一般图(包括含有未观测变量的情况),并为因果发现提供一个完整的规范理论。
三、主要公式与推导
3.1 因果结构与因果模型
定义 2.2.1(因果结构,Causal Structure)
一个变量集合 V 的因果结构是一个有向无环图(DAG),其中每个节点对应 V 中的一个元素,每条连边表示对应变量之间的直接函数关系。
定义 2.2.2(因果模型,Causal Model)
因果模型是一个二元组 M = ⟨D, Θ_D⟩,其中 D 是因果结构,Θ_D 是与 D 兼容的一组参数。参数 Θ_D 为每个变量 X_i ∈ V 指定一个函数 x_i = f_i(pa_i, u_i) 和一个概率测度 P(u_i),其中 PA_i 是 X_i 在 D 中的父节点,U_i 是独立于所有其他扰动的随机干扰项。
3.2 隐结构与偏好关系
定义 2.3.2(隐结构,Latent Structure)
隐结构是一个二元组 L = ⟨D, O⟩,其中 D 是关于 V 的因果结构,O ⊆ V 是一组观测变量。
定义 2.3.3(结构偏好,Structure Preference)
当且仅当对于每个 θ_D,存在一个 θ'_D' 使得 PO = PO 时,隐结构 L = ⟨D, O⟩ 被偏好于(preferred to)另一个隐结构 L' = ⟨D', O⟩(记作 L ≺ L')。两个隐结构等价(L' ≈ L)当且仅当 L ≺ L' 且 L' ≺ L。
3.3 最小性与一致性
定义 2.3.4(最小性,Minimality)
一个隐结构 L 相对于一个隐结构类 L 是最小的,当且仅当不存在 L' ∈ L 严格偏好于 L。
定义 2.3.5(一致性,Consistency)
隐结构 L = ⟨D, O⟩ 与一个关于 O 的分布 P̂ 一致,当且仅当 D 可以容纳某个生成 P̂ 的模型——即存在参数化 θ_D 使得 PO = P̂。
3.4 稳定性条件
定义 2.4.1(稳定性,Stability)
设 I(P) 表示 P 中包含的所有条件独立关系集合。因果模型 M = ⟨D, θ_D⟩ 生成一个稳定分布,当且仅当 P(D, θ_D) 不包含额外的独立性——即对任意参数集 θ'_D 都有 I(P(D, θ_D)) ⊆ I(P(D, θ'_D))。
稳定性(Stability)也被称为 DAG-同构性(DAG-isomorphism)或完美映射性(perfect-mapness)以及忠实性(faithfulness)。其核心含义是:所有嵌入在分布 P 中的独立性都由模型 D 的结构所决定,不依赖于参数的精确数值。
3.5 条件依赖实例(章节图示相关)
以图 2.1 中的结构为例,观测到的独立性包括:a ⟂̸ b(a 与 b 独立)和 d ⟂̸ {a, b} | c(在 c 条件下 d 与 {a, b} 独立)。这些独立性模式排除了 d → c 或 d ← c(隐共同原因)的可能性,从而确定了 c → d 的因果方向。
3.6 时间序列过程的统计时间
对于耦合双马尔可夫链过程: $\(X_t = \alpha X_{t+1} + \beta Y_{t+1} + \eta_t \quad (2.3)\)$ $\(Y_t = \gamma X_{t+1} + \delta Y_{t+1} + \zeta_t\)$
其中噪声序列 η_t 和 ζ_t 相互独立。当 |γ| < |α| 且 |δ| < 1 时,该过程只有一个统计时间——即与物理时间一致的时间。
四、关键算法与建模方法
4.1 IC 算法(归纳因果算法)
IC 算法(Inductive Causation)接收一个稳定分布 P̂,输出一个表示等价类的模式(pattern)。
输入: V 上关于变量集合 V 的稳定分布 P̂ 输出: 与 P̂ 兼容的模式 H(P̂)
步骤:
Step 1: 对每一对变量 a, b ∈ V,搜索一个集合 S_{ab} 使得 (a ⟂̸ b | S_{ab}) 在 P̂ 中成立。构造无向图 G,使得当且仅当找不到 S_{ab} 时,顶点 a 和 b 之间连边。
Step 2: 对每一对非邻接的变量 a 和 b 及其公共邻居 c,检查是否有 c ∈ S_{ab}。若是,则继续;若不是,则添加指向 c 的箭头(即 a → c ← b)。
Step 3: 在得到部分有向图中,在两个条件下尽可能多地确定无向边的方向:(i)任何替代定向都会产生新的 v-结构;或(ii)任何替代定向都会产生有向环。
4.2 PC 算法(IC 算法的优化)
PC 算法(Spirtes & Glymour, 1991)是 IC 算法的改进版本,从空集合开始,逐步增大集合 S_{ab} 的基数,递归地从完全图中移除边,一旦找到分离集就停止。由于每个节点的邻居数量有限,该算法在有限度图上具有多项式时间复杂度。
4.3 定向规则(R1–R4)
R1: 若存在箭头 a → b,且 a 与 c 非邻接,则将 b — c 定向为 b → c。 R2: 若存在链 a → c → b,则将 a — b 定向为 a → b。 R3: 若存在两条链 a — c → b 和 a — d → b,且 c 与 d 非邻接,则将 a — b 定向为 a → b。 R4: 若存在链 a — c → d 和 c → d → b,且 c 与 b 非邻接、a 与 d 邻接,则将 a — b 定向为 a → b。
Meek(1995)证明这四条规则是完备的,重复应用最终可以定向所有等价类共用的箭头。
4.4 IC* 算法(含隐变量的归纳因果算法)
IC* 算法是 IC 算法在含隐变量情况下的推广,输出一个标记模式(marked pattern),包含四类边:
- 标记箭头 \(a \to^* b\):表示底层模型中存在从 a 到 b 的有向路径
- 未标记箭头 \(a \to b\):表示 a 到 b 或 a ← L → b(隐共同原因)
- 双向边 \(a \leftrightarrow b\):表示 a ← L → b(隐共同原因)
- 无向边 \(a - b\):表示 a ← b 或 a → b 或 a ← L → b
IC* 算法步骤:
Step 1: 对每对变量 a, b,搜索集合 S_{ab} 使 a 和 b 在 S_{ab} 条件下独立。若不存在这样的集合,在 a 与 b 之间放置无向边 a — b。
Step 2: 对每对非邻接变量 a, b 及其公共邻居 c,检查 c ∉ S_{ab}。若是,则添加指向 c 的箭头(a → c ← b)。
Step 3: 应用以下两条规则递归添加箭头和标记边:
R1: 对每对非邻接节点 a, b 及其公共邻居 c,若 a—c 有指向 c 的箭头且 c—b 没有指向 c 的箭头,则在 c—b 上添加指向 b 的箭头并标记该边得到 \(c \to^* b\)。
R2: 若 a 与 b 邻接,且存在从 a 到 b 的有向路径(严格由标记边组成),则在 a—b 上添加指向 b 的箭头。
4.5 局部因果关系判定准则
定义 2.7.1(潜在原因,Potential Cause)
变量 X 对变量 Y 有潜在因果影响(在 P̂ 下可推断的),当以下条件成立: 1. X 与 Y 在任何条件下都相关; 2. 存在变量 Z 和条件 S 使得:X ⟂̸ Z | S,且 Z ⟂̸ Y | S。
定义 2.7.2(真因,Genuine Cause)
变量 X 对 Y 有真实因果影响,当存在变量 Z 满足以下任一条件: 1. X 与 Y 在任何条件下相关,且存在条件 S 满足:(i)Z 是 X 的潜在原因;(ii)Z ⟂̸ Y | S;(iii)Z ⟂ Y | S ∪ {X}; 2. X 与 Y 处于上述关系定义的传递闭包中。
定义 2.7.3(伪关联,Spurious Association)
两个变量 X 和 Y 存在伪关联,当它们在某个条件下相关,且存在两个其他变量 Z₁ 和 Z₂ 及两个条件 S₁ 和 S₂ 满足: 1. Z₁ ⟂̸ X | S₁;2. Z₁ ⟂ Y | S₁;3. Z₂ ⟂̸ Y | S₂;4. Z₂ ⟂ X | S₂。
五、主要结论
5.1 因果推断的规范理论
本章最重要的结论是:在最小性(Occam's Razor)和稳定性(stability)两个原则下,从观测分布中可以系统性地推断出因果结构。关键在于,某些统计依赖模式——尤其是"非传递三元组"(intransitive triplet)——只能从因果方向性的角度给出有意义的解释。
5.2 定义 2.3.6(推断因果)
给定 P̂,若且仅若在每一个与 P̂ 一致的最小隐结构中都存在从 C 到 E 的有向路径,则变量 C 对变量 E 有因果影响。
这一定义被认为是规范性的(normative),因为它建立在科学调查中最无争议的准则之一——语义层面的奥卡姆剃刀——之上。
5.3 稳定分布的唯一性
在稳定性假设下,每个分布都有一个唯一的最小因果结构(在 d-分离等价意义上),只要不存在隐变量。这一唯一性源于定理 1.2.8:两个因果结构可以相互模仿,当且仅当它们传递相同的依赖信息——即具有相同的骨架(skeleton)和相同的 v-结构集合。
5.4 局部因果关系判定的意义
IC* 算法为因果关系提供了局部判定准则:所有因果关系的推断都至少涉及三个变量。信息以"非传递三元组"的形式出现——例如 a, b, c 满足 (a ⟂̸ b | ∅)、(a ⟂̸ c | ∅) 和 (b ⟂̸ c | ∅)。若变量 a 和 b 都与第三个变量 c 相关但彼此条件独立,则 c 不可能是 a 或 b 的原因——c 必须是它们的共同结果(a → c ← b)或通过共同原因与 a、b 关联。
5.5 统计时间与物理时间的联系
在没有时间先验的情况下,仅从统计依赖模式可以推断因果方向。Coupled AR(1) 过程的例子表明,IC 算法可以在不利用时间信息的情况下,从样本中识别 X_{t+1} 和 Y_{t+1} 作为 X_t 和 Y_t 的真实原因。这暗示自然现象的统计特性可能具有某种时间偏向性,使得物理时间与统计时间在大多数情况下重合。
六、挑战与开放问题
6.1 稳定性假设的合理性
稳定性假设意味着所有观测到的独立性都是结构性的,不依赖于参数的精确数值。但这一假设在现实中是否总是成立?Pearl 承认,某些参数化可能在特定数值下产生看似结构性但实际不稳定独立性。例如,在 Z ← X → Y 的线性模型中,若 β ≈ -αγ,则 X 与 Y 可能呈现出条件独立性——但这种独立性极其脆弱,微小的参数扰动就会破坏它。
6.2 隐结构的恢复难度
隐结构对分布施加的约束不能完全由条件独立语句刻画。虽然某些独立约束可以识别(Verma & Pearl, 1990),允许恢复隐结构的有效片段,但这仍然是一个具有挑战性的问题。当存在隐变量时,最小隐结构的搜索空间是无界的,Theorem 2.6.2 的投影性质提供了搜索的有限化方法,但计算复杂度仍然很高。
6.3 IC 和 IC* 算法的计算复杂度
IC 算法的 Step 1 需要对每一对变量搜索条件独立集合,这是一个组合搜索问题。虽然 PC 算法在稀疏图上具有多项式时间复杂度,但在密集图上仍然面临计算瓶颈。对于高维变量集合,条件独立检验的统计功效也是一大挑战——样本量有限时,很多条件独立关系可能无法被可靠地检测到。
6.4 参数依赖与结构等价
某些参数化方式会使原本结构不同的因果模型在观测分布上不可区分。例如,两个看似不同的因果结构可能产生完全相同的观测分布,这意味着从观测数据中我们只能恢复到一个等价类,而非唯一的因果结构。模式(pattern)是对这种等价类的图形化表示,但如何在不同等价类之间做出选择仍然是开放问题。
6.5 非时间性因果与语言依赖性
Pearl 指出,统计时间与物理时间的一致性可能是人类语言选择的人为产物,而非物理现实的内在特征。不同的坐标变换可能使统计时间反向运行。这一发现引发了一个深刻的问题:我们通过统计方法推断的"因果方向",究竟在多大程度上反映了世界的客观因果结构,又在多大程度上受到我们描述世界所用语言的影响?
七、个人反思与批判性分析
7.1 理论贡献的深刻性
本章的理论框架具有高度的创新性和严密性。Pearl 成功证明了"因果关系可以从被动观测数据中推断"这一反直觉的命题,其核心洞见在于:某些统计依赖模式(特别是非传递三元组)具有天然的因果方向性解读,而另一些解读在数学上是不自然的。这与 Holland(1986)的"没有操纵就没有因果"形成了鲜明对比,表明后者的悲观论断过于绝对。
7.2 奥卡姆剃刀的语义诠释
Pearl 将最小性与贝叶斯科学哲学联系起来:更简单的理论更具约束性,因此更易被证伪(Popper, 1959)。这一观点深刻。传统的奥卡姆剃刀通常被认为是语法层面的(syntactic)——偏好参数更少的模型。但 Pearl 强调的是语义层面(semantic)的最小性——基于表达能力的偏好。这避免了因参数化方式不同而导致的不等价问题。
7.3 稳定性假设的哲学张力
稳定性假设与"所有独立性都是结构性的"这一强假定存在哲学张力。在现实世界中,我们观测到的独立性往往可能是"参数巧合"的结果,而非源自因果结构。Pearl 通过"椅子与两把椅子"的比喻来说明稳定性假设的直觉合理性:两把椅子恰好重叠成一把椅子的视觉外观,虽然可能,但极不可能。类似地,在高维参数空间中,精确的参数关系也是极不可能的。这一论证本质上是基于概率的,但也暗示了因果推断本质上是关于什么更可能为真的推断,而非确定性的知识。
7.4 与manipulationist观点的关系
Pearl 在本章中多次回应 Holland 的"no causation without manipulation"论断,但他的立场并非完全拒绝,而是扩展了这一论断的内涵。他指出,IC* 算法通过在数据中寻找"虚拟控制变量"(virtual control)来实现类似操纵的效果。这是一种优雅的理论综合:manipulationist 观点强调干预的重要性,而 Pearl 的框架告诉我们如何在没有实际干预的情况下,从观测数据中识别出干预效果的等价物。
7.5 本章在全书中的地位
第二章在全书结构中具有奠基性作用。第一章建立了因果模型的语义基础(结构方程模型、d-分离),本章则将这一语义基础转化为一个算法框架——从观测分布中反向恢复因果结构。第一章回答的是"给定因果结构,观测分布有什么性质",本章回答的是"给定观测分布,因果结构有什么性质"。两者共同构成了因果推断的完整理论闭环。
7.6 对实践的启示
尽管 IC 和 IC* 算法在理论上优美,但将其直接应用于实际问题仍面临挑战。条件独立性的统计检验对样本量敏感,在高维数据中尤为困难。此外,稳定性假设在实际数据中是否成立需要验证。这些问题在后续章节(如第3章的实验设计、第5章的介入分析)中会有进一步讨论。
公式汇总表
| 编号 | 公式名称 | 公式内容 | 所在位置 |
|---|---|---|---|
| (2.1) | 链结构条件独立性 | \(z = f_1(x, u_1)\), \(y = f_2(x, u_2)\) | Section 2.4 |
| (2.2) | 线性模型不稳定独立性 | \(z = gx + u_1\), \(y = \alpha x + \beta z + u_2\), 若 \(\alpha = -\beta g\) 则 Y ⟂ X | Section 2.4 |
| (2.3) | 耦合马尔可夫链 | \(X_t = \alpha X_{t+1} + \beta Y_{t+1} + \eta_t\), \(Y_t = \gamma X_{t+1} + \delta Y_{t+1} + \zeta_t\) | Section 2.8 |
| D 2.2.1 | 因果结构定义 | DAG, 节点=变量, 连边=直接函数关系 | Section 2.2 |
| D 2.2.2 | 因果模型定义 | M = ⟨D, Θ_D⟩, \(x_i = f_i(pa_i, u_i)\) | Section 2.2 |
| D 2.3.2 | 隐结构定义 | L = ⟨D, O⟩ | Section 2.3 |
| D 2.3.3 | 结构偏好定义 | L ≺ L' iff D' 可模仿 D over O | Section 2.3 |
| D 2.3.4 | 最小性定义 | 不存在 L' 严格偏好于 L | Section 2.3 |
| D 2.3.5 | 一致性定义 | ∃θ_D: PO = P̂ | Section 2.3 |
| D 2.3.6 | 推断因果定义 | 在所有最小隐结构中都有 C→E 有向路径 | Section 2.3 |
| D 2.4.1 | 稳定性定义 | I(P(D, θ_D)) ⊆ I(P(D, θ'_D)), ∀θ'_D | Section 2.4 |
| D 2.6.1 | 投影定义 | 隐结构投影满足两个条件 | Section 2.6 |
| D 2.7.1 | 潜在原因定义 | X⟂̸ Y|S 且 ∃Z: X⟂ Z|S, Z⟂̸ Y|S | Section 2.7 |
| D 2.7.2 | 真因定义 | 满足 Z 为 X 潜在原因且 Z⟂̸ Y|S, Z⟂ Y|S∪{X} | Section 2.7 |
| D 2.7.3 | 伪关联定义 | 四条件同时满足(Z₁, Z₂, S₁, S₂) | Section 2.7 |
| D 2.7.4 | 时间信息下的真因 | Z ⟂̸ Y|S 且 Z ⟂ Y|S∪{X},Z 和 S 均在 X 之前 | Section 2.7 |
| D 2.7.5 | 时间信息下的伪关联 | X⟂̸ Y|S, X 在 Y 之前, ∃Z: Z⟂ Y|S, Z⟂̸ X|S | Section 2.7 |
| D 2.8.1 | 统计时间定义 | 与至少一个最小因果结构一致的变量排序 | Section 2.8 |
| C 2.8.2 | 时间偏向猜想 | 在大多数自然现象中,物理时间与至少一个统计时间重合 | Section 2.8 |
| R1–R4 | 定向规则 | 四条边的定向规则(Meek 1995证明完备) | Section 2.5 |
笔记完成日期:2026年5月10日 参考来源:Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press. Chapter 2.