跳转至

第九章:必要原因与充分原因

原文出处:Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press. Chapter 9.


1. 章节概述

本章系统性地探讨了因果关系中的两个核心概念——必要性(Necessity)充分性(Sufficiency)——并运用结构因果模型的语义学为这两个概念提供了精确的数学定义。研究动机源于流行病学、法律推理、人工智能和心理学等多个领域对"因果概率"的实际需求。

本章首先回顾了J.S. Mill(1843)以来必要原因与充分原因的哲学探讨,指出传统概率论和逻辑学方法在语义上存在根本困难。Pearl转而采用结构模型语义学(Structural Model Semantics),为三种因果概率提供了简洁的数学定义:

  • PN(Probability of Necessity,必要性概率):衡量原因X对结果Y的"不可或缺性",即"如果没有X,Y就不会发生"的概率
  • PS(Probability of Sufficiency,充分性概率):衡量原因X对结果Y的"足以产生性",即"如果设置X,就会产生Y"的概率
  • PNS(Probability of Necessity and Sufficiency,必要且充分概率):同时衡量必要性与充分性

这些概念在流行病学的归因风险、法律责任判定、政策分析和AI自动解释生成等场景中有广泛应用。本章的核心贡献在于:在外生性(Exogeneity)和单调性(Monotonicity)等假设下,推导出了这些因果概率的可识别性条件和计算公式,并通过四个详细示例(掷硬币、行刑队、辐射与白血病、药物诉讼)展示了这些公式在实际场景中的应用。


2. 关键问题与研究动机

2.1 核心问题

如何从统计数据中识别和估计因果概率? 具体而言,当给定观测数据P(X, Y)和因果图G时,能否唯一确定PN、PS和PNS这三个因果度量?

2.2 研究背景

传统方法存在两大缺陷:

  1. 概率论方法的局限:Good(1961)基于条件概率的因果定义,以及Mackie(1965)、Rothman(1976)基于逻辑蕴含的因果定义,在语义上存在困难,无法处理反事实推理的精确计算。

  2. 流行病学实践的需求:流行病学家长期关注如何估计"归因概率"——即给定暴露和疾病实际发生的情况下,该疾病"归因于"特定暴露的概率。Robins和Greenland(1989)将这一概念称为"因果概率"(Probability of Causation, PN)。

2.3 识别障碍

PN等因果概率在一般情况下不可识别,主要受两个因素阻碍:

  1. 混杂(Confounding):暴露组与非暴露组可能在多个相关因素上存在差异,或原因与结果共同受第三因素影响(即原因相对于结果不是外生的)。

  2. 对生成过程的敏感性:即使无混杂,除非指定连接原因与结果的函数关系,否则无法从频率数据中识别某些反事实关系的概率。功能规格的确定在事实(如疾病)可能受反事实前因(如暴露)影响时是必要的。

2.4 必要性vs充分性的直觉理解

  • 必要性强调"没有X就没有Y"——聚焦于替代过程的缺失
  • 充分性强调"有X就有Y"——聚焦于活跃因果过程的存在
  • 在法律场景中,PN(必要性)最受关注,因为诉讼方必须证明"如果没有X,Y就不会发生"
  • 但充分性的缺失会削弱基于PN的论证

2.5 哲学与AI的交汇

在AI自动解释生成系统中,必要性与充分性的平衡尤为重要。纯粹基于充分性(一般倾向)的解释会丢失重要的特定事件信息(如从1000米外射击不能解释死亡);纯粹基于必要性(特定事件)的解释则会让各种背景因素尴尬地成为"原因"(如房间里的氧气)。充分平衡两种成分是构建充分因果解释的关键。


3. 主要公式与推导

3.1 基本定义(Definitions 9.2.1–9.2.5)

设X和Y为二元变量,x和y分别表示X=true和Y=true,x̄和ȳ表示其补集。

定义9.2.1 必要性概率(PN)

\[PN \equiv P(Y_{x̄} = \text{false} \mid X = \text{true}, Y = \text{true}) = P(\bar{y}_{\bar{x}} = x, y) \qquad(9.1)\]

即:在X和Y都实际发生的条件下,Y在X不存在时就不会发生的概率。

定义9.2.2 充分性概率(PS)

\[PS \equiv P(Y_x = \text{true} \mid X = \text{false}, Y = \text{false}) \qquad(9.2)\]

即:在X和Y都实际不发生的条件下,设置X会产生Y的概率。

定义9.2.3 必要且充分概率(PNS)

\[PNS \equiv P(Y_x, Y_{\bar{x}}) \qquad(9.3)\]

即:Y对X的响应两个方向都成立的概率。

定义9.2.4 失能概率(PD)

\[PD \equiv P(Y_{\bar{x}} = \text{false} \mid Y = \text{true}) \qquad(9.4)\]

衡量如果没有X,Y本可以被预防的概率。

定义9.2.5 赋能概率(PE)

\[PE \equiv P(Y_x = \text{true} \mid Y = \text{false}) \qquad(9.5)\]

与PS类似,但不以X̄为条件。

3.2 基本引理(Lemma 9.2.6)

PNS、PN和PS之间满足:

\[PNS = P(x, y) \cdot PN + P(\bar{x}, \bar{y}) \cdot PS \qquad(9.5)\]

证明概要:利用一致性条件 \(x \land (y_x = y)\)\(\bar{x} \land (y_{\bar{x}} = y)\),将 \(y_x \land \bar{y}_{\bar{x}}\) 分解为两个不相交事件的并,然后取概率。

3.3 不变性引理(Lemmas 9.2.7–9.2.8)

引理9.2.7:PN对Y的潜在抑制因子的引入不敏感。设 \(z = y \land q\),若q被随机化,则 \(PN(x, z) = PN(x, y)\)

引理9.2.8:PS对Y的替代独立原因的引入不敏感。设 \(z = y \lor r\),若r被随机化,则 \(PS(x, z) = PS(x, y)\)

3.4 外生性定义(Definition 9.2.9)

X相对于Y是外生的,当且仅当:

\[\{Y_x, Y_{\bar{x}}\} \perp\!\!\!\perp X \qquad(9.7)\]

即:Y对X的潜在响应方式独立于X的实际值。这是Rosenbaum和Rubin(1983)所谓的"强不可忽略性"(Strong Ignorability),与第5章和第6章中较弱的定义不同。

外生性的重要性在于允许识别因果效应 \(P(y_x)\)

\[P(y_x) = P(y_x \mid x) = P(y \mid x) \qquad(9.8)\]

3.5 有界性定理(Theorems 9.2.10–9.2.11)

定理9.2.10:在外生性条件下,PNS有界:

\[\max[0, P(y \mid x) - P(y \mid \bar{x})] \leq PNS \leq \min[P(y \mid x), P(\bar{y} \mid \bar{x})] \qquad(9.9)\]

定理9.2.11:在外生性条件下:

\[PN = \frac{PNS}{P(y \mid x)} \qquad(9.11)$$ $$PS = \frac{PNS}{P(\bar{y} \mid \bar{x})} \qquad(9.12)\]

由(9.9)–(9.12)可推得PN的界:

\[\frac{\max[0, P(y \mid x) - P(y \mid \bar{x})]}{P(y \mid x)} \leq PN \leq \frac{\min[P(y \mid x), P(\bar{y} \mid \bar{x})]}{P(y \mid x)} \qquad(9.13)\]

3.6 单调性下的可识别性(Theorem 9.2.14)

定义9.2.13 单调性:Y相对于X是单调的,当且仅当函数 \(Y_x(u)\) 在x上单调(即:从X=false到X=true的变化不可能使Y从true变为false)。

等价于:

\[\bar{y}_x \land y_{\bar{x}} = \text{false} \qquad(9.20)\]

流行病学中常表述为"无预防",即暴露于风险因素不会帮助任何人。

定理9.2.14:若X是外生的且Y相对于X是单调的,则PN、PS和PNS都是可识别的,且:

\[PNS = P(y_x) + P(y_{\bar{x}}) = P(y \mid x) - P(y \mid \bar{x}) \qquad(9.21)\]

由此可得:

\[PN = \frac{P(y \mid x) - P(y \mid \bar{x})}{P(y \mid x)} \qquad(9.22)\]

这正是流行病学中的超额风险比(Excess Risk Ratio),常被误称为"归因分数"。

\[PS = \frac{P(y \mid x) - P(y \mid \bar{x})}{1 + P(y \mid \bar{x})} \qquad(9.23)\]

这与流行病学中的"相对差异"(Relative Difference)和Cheng(1997)的"因果力"(Causal Power)一致。

3.7 非外生性下的可识别性(Theorem 9.2.15)

在放松外生性假设、保留单调性假设的情况下:

\[PNS = P(y_x) + P(y_{\bar{x}}) \qquad(9.28)$$ $$PN = \frac{P(y) + P(y_{\bar{x}})}{P(x, y)} \qquad(9.29)$$ $$PS = \frac{P(y_x) + P(y)}{P(\bar{x}, \bar{y})} \qquad(9.30)\]

展开(9.29)可得:

\[PN = \frac{P(y \mid x) - P(y \mid \bar{x})}{P(y \mid x)} + \frac{P(y \mid \bar{x}) + P(y_{\bar{x}})}{P(x, y)} \qquad(9.31)\]

第一项是外生性下的超额风险比,第二项是混杂偏倚的校正项。

3.8 单调性检验(不等式9.32–9.33)

由于PS和PN必须非负,可得单调性的必要检验:

\[P(y_x) \geq P(y) \geq P(y_{\bar{x}}) \qquad(9.32)\]

标准不等式:

\[P(y_{\bar{x}}) \geq P(\bar{x}, y), \quad P(y_x) \geq P(x, \bar{y}) \qquad(9.33)\]

3.9 非单调模型的可识别性(Theorem 9.4.2)

定义9.4.1 局部可逆性:模型M是局部可逆的,如果对每个变量 \(V_i \in V\),方程组(9.60)–(9.61)对 \(q_i(s)\) 有唯一解。

定理9.4.2:给定一个马尔可夫模型 \(M = \langle U, V, \{f_i\} \rangle\),其中函数 \(\{f_i\}\) 已知但外生变量U不可观测,如果M是局部可逆的,则每个反事实语句的概率都可从联合概率 \(P(v)\) 识别。


4. 关键算法与建模方法

4.1 因果概率估计流程

对于流行病学应用,估算PN的一般步骤如下:

1. 验证外生性假设(通过图形准则或领域知识)
2. 验证单调性假设("无预防"假设)
3. 若外生+单调:直接使用公式(9.22)计算PN(超额风险比)
4. 若仅单调:使用公式(9.29)结合因果效应估计P(yx)和P(yx̄)
5. 若两者都不满足:使用界(9.13),或通过实验+观察数据的组合进行校正

4.2 混杂校正的调整公式

当存在混杂因子W时,使用标准调整公式(第3章方程3.19):

\[P(y_x) = \sum_w P(y \mid x, w) P(w)$$ $$P(y_{\bar{x}}) = \sum_w P(y \mid \bar{x}, w) P(w) \qquad(9.48)\]

然后将这些估计代入(9.29)–(9.30)计算PN和PS。

4.3 noisy-OR机制的可识别性

在由noisy-OR机制组成的马尔可夫模型中:

\[Y = U_0 \land \bigvee_{i=1}^{k} (X_i \land U_i) \qquad(9.58)\]

即使背景变量 \(U_0, U_1, \ldots, U_k\) 不相互独立,响应变量的概率也可从 \(P(y \mid pa_Y)\) 识别。这因为每个使 \(U_0 = \text{false}\) 的点u定义了一个唯一函数。

4.4 局部可逆性检验

对于一般的非单调模型,检验可逆性的步骤:

1. 对每个变量Yi,考虑其父节点paYi的所有可能取值(共2^k种)
2. 构建等价类集合S:具有相同函数fi(s)的u值归为同一类
3. 构建矩阵R(2^k × |S|矩阵,元素为0或1)
4. 验证R是否可逆(加上归一化方程)
5. 若可逆,则模型是局部可逆的,所有反事实概率可识别

5. 主要结论

5.1 核心结论汇总

假设条件 PN可识别性 公式
外生性 + 单调性 可识别(点估计) PN = [P(y|x) - P(y|x̄)] / P(y|x)
仅外生性 有界 公式(9.13)
仅单调性 + 因果效应可识别 可识别(需校正) 公式(9.29)
无假设 有界(观察数据) 公式(9.9)
无假设(实验+观察组合) 有界(更紧) 需验证不等式相容性

5.2 流行病学应用要点

  1. 超额风险比(ERR)只有在外生性单调性两个假设同时成立时,才是PN的有效估计量。

  2. 当存在混杂时,PN比ERR高出校正项:

\[\text{bias} = \frac{P(y \mid \bar{x}) + P(y_{\bar{x}})}{P(x, y)}\]
  1. 实验数据与观察数据的组合可以揭示单独任何一种研究都无法揭示的信息。

  2. 不等式(9.32)可用于检验单调性假设,或验证实验组与目标人群的相容性。

5.3 必要性与充分性的互补角色

  • PN(必要性)在法律场景中占主导地位,因为它对应"but-for"测试
  • PS(充分性)在政策分析和解释生成中更重要,因为它衡量"因果力"
  • 两者共同构成完整的因果解释:PN处理"没有X Y还会发生吗",PS处理"有了X Y一定会发生吗"
  • 单纯的PN或单纯的PS都不足以构建充分的因果解释

5.4 与Mackie INUS条件的关系

Mackie的INUS条件(以及法律界的NESS条件)在直觉上有吸引力,但存在根本性缺陷:

  1. 对偶性问题:从"A implies B"不能推断"not-B implies not-A"(违反 contraposition)
  2. 语法敏感性问题:同一因果关系可能因表达式的重写而被误判
  3. 结构性信息丢失:标准逻辑语法无法编码因果影响的流向信息

结构模型语义通过区分"结构性(机制)信息"和"情境性信息",克服了这些缺陷。


6. 挑战与开放问题

6.1 可识别性的局限性

即使在单调性假设下,非外生性仍然是识别因果概率的主要障碍。虽然公式(9.29)–(9.30)给出了校正后的表达式,但需要通过辅助手段(如协变量调整)来估计 \(P(y_x)\)\(P(y_{\bar{x}})\)

6.2 单调性假设的不可检验性

单调性假设("无预防")在一般情况下不可检验。虽然不等式(9.32)提供了弱检验,但:

  • 需要同时有实验和观察数据
  • 违反不等式可能意味着假设不成立,也可能意味着采样不当

流行病学中需要依赖领域知识来判断单调性是否合理。

6.3 非单调模型的识别条件

第9.4节给出的局部可逆性条件是充分条件而非必要条件。对于一般的非单调模型:

  • 识别条件仍不完整
  • 某些情况下可通过假设额外的独立性结构(如U变量在每个家庭内独立)来获得识别
  • 寻找更宽松的识别条件仍是活跃的研究方向

6.4 实际原因(Actual Cause)与概率因果的鸿沟

本章(和第7章)的反事实方法主要处理类型级(type-level)的因果概率,而实际原因(actual cause)——在特定场景中导致特定结果的特定事件——需要更精细的分析(详见第10章)。行刑队例子中两个射手都是"实际原因",但PN=0,说明反事实方法对过决定的处理需要额外的结构信息。

6.5 法律与伦理考量

Pearl指出,PS(充分性)是否应进入法律考量是一个开放问题:

  • 从道德角度,充分性意味着对行为后果的预见责任
  • 但法律系统中如何权衡必要性与充分性成分尚无共识

6.6 概率因果模型的局限

即使在随机(非拉普拉斯)模型中,其中每个 \(Y_x(u)\) 以概率 \(P(Y_x(u) = y)\) 指定而非单一数值,因果概率也无法唯一确定。界的不为零宽度表明概率因果在本质上无法从纯统计数据中识别。


7. 个人反思与批判性分析

7.1 理论贡献评价

本章是Pearl因果理论中最具实践价值的章节之一。它成功地将哲学层面的"必要原因"与"充分原因"概念转化为可计算的概率公式,并通过具体的识别条件将这些公式与流行病学和法律实践中长期使用的度量(如归因分数、超额风险比)联系起来。

最重要的理论贡献在于揭示了一个长期被流行病学界忽视的事实:作为"因果概率"广泛使用的超额风险比,其有效性依赖于两个通常未被明确检验的假设——外生性和单调性。这一发现对循证医学和药物流行病学具有重要的警示意义。

7.2 方法论反思

7.2.1 结构语义学的优势

通过使用结构模型语义学而非概率论或逻辑学方法,本章成功克服了传统方法的若干缺陷:

  1. 避免了语义模糊:反事实表达式 \(Y_x(u)\) 有明确的模型论语义
  2. 允许精确推导:识别条件以定理形式给出,而非启发式规则
  3. 统一处理多种场景:从掷硬币到法律诉讼,都使用同一套形式体系

7.2.2 局限性

然而,方法论上也存在一些值得注意的问题:

  1. 假设的合理性:外生性和单调性假设在许多实际场景中难以满足。例如,在药物诉讼案例中,选择服用药物的患者与对照组的系统性差异(混杂)几乎必然存在。

  2. 界的不紧凑性:在一般无假设情况下,PN的界是[0, 1],这在实际决策中毫无用处。这说明纯粹从观测数据推断因果概率存在根本性的信息不足。

  3. 实验-观察数据组合的假设:第9.3.4节的法律示例展示了如何通过组合实验和观察数据获得更紧的界。但这依赖于一个关键假设:因果效应 \(P(y_x)\) 在实验组和观察组之间是不变量(实验不变性假设)。这一假设的合理性取决于随机化的成功和两组之间的相容性。

7.3 与其他理论的关系

7.3.1 vs. Lewis的反事实理论

Lewis(1986)的反事实因果理论强调 \(Y_x\)\(Y_{\bar{x}}\) 之间的依赖关系。本章的方法实际上是对Lewis理论的精炼和扩展:通过引入结构模型,可以处理Lewis理论难以应付的过决定(overdetermination)先占(preemption)问题。然而,对于"实际原因"的完整处理仍需要第10章的进一步发展。

7.3.2 vs. Mackie的INUS条件

Mackie试图通过逻辑的必要性/充分性组合来解释因果,但本章的批评是有力的:逻辑语言无法捕捉结构性信息(因果影响的流向)。结构语义学通过区分: - 结构性表达式 \(y_i = f_i(pa_i, u_i)\) —— 表示稳定的机制(dispositional relations) - 命题表达式 \(X(u) = x\) —— 表示特定世界中的情境

克服了Mackie方法的根本缺陷。

7.4 实践应用的思考

7.4.1 对流行病学实践的建议

本章对流行病学实践有以下重要启示:

  1. 明确假设:使用归因分数等因果度量时,应明确说明所依赖的外生性和单调性假设
  2. 敏感性分析:由于假设通常无法完全验证,应进行广泛的敏感性分析
  3. 数据组合:在可能的情况下,组合实验和观察数据以获得更紧的界
  4. 相容性检验:使用不等式(9.32)–(9.33)检验数据与假设的一致性

7.4.2 对法律推理的建议

法律场景中的因果推断面临额外的挑战:

  1. 个案vs统计:本案中Mr. A的因果概率可能与群体层面的PN有很大差异
  2. 反事实的可辩护性:对于"如果没有X,Y还会发生吗"这类问题,需要对替代原因的可能性进行建模
  3. 充分性的角色:即使PN很高,如果PS很低(存在其他等效的充分原因),责任分担可能是合理的

7.5 形式化方法的启示

本章展示了形式化因果推理的价值:将日常语言中的因果概念("原因"、"充分"、"必要")翻译为精确的数学定义,不仅澄清了概念本身,还揭示了隐藏在直觉背后的假设和限制

这一教训对任何涉及因果推断的领域都有普遍意义:没有形式化,就无法系统地分析因果概念;没有假设的明确化,就无法正确解释统计结果。

7.6 开放问题的思考

本章遗留了几个值得进一步思考的问题:

  1. 因果解释的平衡:如何在具体解释中平衡必要性与充分性成分?这不仅是数学问题,也涉及认知科学和哲学。

  2. 可解释性:对于非专业受众,如何传达因果概率估计的不确定性?界而非点估计可能是更诚实的表达。

  3. 动态场景:本章主要处理静态二元事件。对于随时间演化的暴露和结果(如生存分析),因果概率应如何定义和估计?


附录:公式汇总表

编号 公式名称 公式内容 适用条件
(9.1) 必要性概率PN定义 \(PN = P(\bar{y}_{\bar{x}} \mid x, y)\) 一般定义
(9.2) 充分性概率PS定义 \(PS = P(y_x \mid \bar{x}, \bar{y})\) 一般定义
(9.3) 必要且充分概率PNS定义 \(PNS = P(y_x, \bar{y}_{\bar{x}})\) 一般定义
(9.5) PNS-PN-PS关系 \(PNS = P(x,y) \cdot PN + P(\bar{x},\bar{y}) \cdot PS\) 一般
(9.7) 强外生性定义 \(\{Y_x, Y_{\bar{x}}\} \perp\!\!\!\perp X\) 外生性假设
(9.8) 外生性下的因果效应 \(P(y_x) = P(y \mid x)\) 外生性
(9.9) PNS的界 \(\max[0, P(y\mid x)-P(y\mid\bar{x})] \leq PNS \leq \min[P(y\mid x), P(\bar{y}\mid\bar{x})]\) 外生性
(9.11) PN与PNS关系 \(PN = PNS / P(y \mid x)\) 外生性
(9.12) PS与PNS关系 \(PS = PNS / P(\bar{y} \mid \bar{x})\) 外生性
(9.13) PN的界 \(\frac{\max[0, P(y\mid x)-P(y\mid\bar{x})]}{P(y\mid x)} \leq PN \leq \frac{\min[P(y\mid x), P(\bar{y}\mid\bar{x})]}{P(y\mid x)}\) 外生性
(9.20) 单调性定义 \(\bar{y}_x \land y_{\bar{x}} = \text{false}\) 单调性
(9.21) PNS(单调+外生) \(PNS = P(y \mid x) - P(y \mid \bar{x})\) 外生+单调
(9.22) PN(超额风险比) \(PN = [P(y\mid x) - P(y\mid\bar{x})] / P(y\mid x)\) 外生+单调
(9.23) PS(相对差异/因果力) \(PS = [P(y\mid x) - P(y\mid\bar{x})] / [1 + P(y\mid\bar{x})]\) 外生+单调
(9.28) PNS(仅单调) \(PNS = P(y_x) + P(y_{\bar{x}})\) 单调性
(9.29) PN(混杂校正) \(PN = [P(y) + P(y_{\bar{x}})] / P(x, y)\) 单调性
(9.30) PS(混杂校正) \(PS = [P(y_x) + P(y)] / P(\bar{x}, \bar{y})\) 单调性
(9.31) PN的混杂校正展开 \(PN = \frac{P(y\mid x)-P(y\mid\bar{x})}{P(y\mid x)} + \frac{P(y\mid\bar{x})+P(y_{\bar{x}})}{P(x,y)}\) 单调性
(9.32) 单调性必要检验 \(P(y_x) \geq P(y) \geq P(y_{\bar{x}})\) 检验单调性
(9.33) 标准不等式 \(P(y_{\bar{x}}) \geq P(\bar{x}, y),\ P(y_x) \geq P(x, \bar{y})\) 一般
(9.48) 混杂调整公式 \(P(y_x) = \sum_w P(y\mid x,w)P(w)\) 混杂调整

阅读时间:约6小时 难度评级:★★★★☆(技术性较强,需具备概率论和因果图基础) 推荐指数:★★★★★(因果推断核心章节,理论价值与实践意义并重)