第 9 章：因果概率：解释与识别（Probability of Causation: Interpretation and Identification）

9.1 引言（INTRODUCTION）

本章以《约拿书》1:7 "我们来抽签，找出这灾殃因谁而起" 作为引子，开宗明义地提出贯穿全章的核心问题：评估"一事件是另一事件原因"的可能性，是我们对世界的理解与行动的核心依据；而司法上"more probable than not"（过半概率）标准则把这一直觉形式化为原告胜诉的判定条件。作者随即指出，因果关系有"必要"与"充分"两副面孔 (causation has two faces, necessary and sufficient)，立法者所指的究竟是哪一个？它们的概率又当如何评估？

作者交代，本章的目的是为"x 是 y 的必要原因 / 充分原因 / 既是必要也是充分原因"提供形式语义 (formal semantics)，并阐明使这些概率可被数据估计 (learnable) 的条件，以及如何把实验数据与非实验数据结合起来，得到任何一方单独无法提供的信息。

第 9.1 节首先澄清三种概念的历史脉络。标准的反事实因果定义 (counterfactual definition of causation, 即"若非 C 则 E 不会发生") 抓住了"必要原因 (necessary cause)" 的含义；而"充分原因 (sufficient cause)" 与"必要且充分原因 (necessary and sufficient cause)" 在多种应用中也同等重要。第 7.1 节的结构模型语义 (structural model semantics) 可对两者给出简洁的数学定义。这一区分可追溯至 J. S. Mill (1843)，但直到 1960 年代才出现半形式化阐释——以条件概率形式给出的 (Good 1961) 和以逻辑蕴含形式给出的 (Mackie 1965; Rothman 1976)。这些早期阐释存在基础语义学困难 (semantical difficulties)，也无法像 7.1.3 节与 8.3 节那样提供计算因果概率的程序。

随后作者定义本章的两个核心对象。"PN (probability of necessity)" 是流行病学家长期关心的"归因概率 (attributable probability)"，即"在疾病与暴露确实发生的条件下，若无暴露则疾病不会发生的概率"。Robins 与 Greenland (1989) 将其命名为 "probability of causation"，测量原因的必要性。它常用于法律诉讼 (例如 8.3 节)。与此平行的是"PS (probability of sufficiency)"——"若对原本健康且未暴露者施加暴露，其会患病的概率"——在政策分析、AI 与心理学中有重要应用 (Khoury et al. 1989)。自然延伸是"必要且充分原因的概率 PNS"。

作者强调，PS 评估的是"足以产生结果的活跃因果过程是否存在"，而 PN 强调的是"不涉及该原因的替代过程是否不存在"。在司法语境中，因果关系 (x) 与结果 (y) 通常较为确定，因此 PN 受到最多关注，原告必须证明"若无 x 则 y 不会发生" (Robertson 1997)；但充分性的不足会削弱基于 PN 的论证 (Good 1993; Michie 1999)。

接下来，作者陈述一个根本性事实：PN 在一般情况下不可识别 (nonidentifiable)，即不能仅由包含暴露与疾病的频率数据估计 (Greenland and Robins 1988; Robins and Greenland 1989)。这一不可识别性源于两个因素：(1) 混杂 (confounding)——暴露与非暴露对象可能在若干相关因素上不同，或因果双方均受第三方影响，即"原因相对结果非外生 (not exogenous relative to the effect, 见 7.4.5 节)"；(2) 对生成过程的敏感性 (sensitivity to the generative process)——即便没有混杂，除非指定连接因果的函数关系，否则涉及反事实前件 (counterfactual antecedent, 例如暴露) 影响事实 (例如疾病) 的概率也无法从频率信息识别。这一函数关系的必要性与 1.4、7.5、8.3 节中的例子一脉相承。

尽管 PN 在一般情形不可识别，仍有学者 (Breslow and Day 1980; Hennekens and Buring 1987; Cole 1997) 提出用流行病学研究频率估计各种"归因 (attribution)" 的公式。任何一个这样的公式必然预设了某些关于数据生成过程的隐含假设。本章 9.2 节将阐明这些假设并探索放宽它们的条件：在原因与结果被混杂、但其效应可由其他手段 (例如临床试验或辅助测量) 估计的情形下，给出 PN 与 PS 的新公式。9.3 节举例说明这些公式在法律与流行病学中的应用，9.4 节给出 PN 与 PS 在函数关系仅部分已知时的一般可识别性条件。

最后，作者论述必要原因与充分原因的区分对 AI 的重要意义，尤其是在自动生成语言解释 (verbal explanations) 的系统中 (见 7.2.3 节)。作者以两组例子做对比：必要因果 (singular causation) 针对具体事件，充分因果 (sufficient causation) 基于事件类型产生其他类型的总体倾向 (generic tendency)。仅基于类型倾向的解释会丢失重要特异信息——例如从 1000 米外瞄准并射击某人并不会因其"击中率极低"而成为对死亡这一具体事件的合理解释；但仅基于具体事件必要性的解释又会荒谬地把房间内氧气的存在作为火灾的合理解释，因为没有氧气火不会发生。常识告诉我们：判断是擦出的火柴 (match struck) 而非氧气才是火灾的"实际原因"，意味着我们必须在具体事件之外考虑"同类情境"——而氧气自身显然不足以引发火灾。因此，合理的因果解释必须在必要成分与充分成分之间取得平衡，而本章正是以形式化方式阐明这两者的基本关系。

9.2.1 定义、记号与基本关系（Definitions, Notation, and Basic Relationships）

本节用 7.1 节介绍的反事实记号与结构模型语义，给出三种因果方面的定义。

定义 9.2.1 (必要性概率 PN)：设 X 与 Y 是因果模型 M 中的二值变量，x 与 y 分别代表命题 X=true 与 Y=true，x' 与 y' 代表其否定。必要性概率定义为：

\[ P_N \triangleq P(y'_{x'} = \text{false} \mid X = \text{true}, Y = \text{true}) = P(y'_{x'} \mid x, y). \quad (9.1) \]

即在 x 与 y 确实发生的条件下，事件 y 不会在 x 不存在时发生的概率 \(P(y'_{x'})\)。记号上的细微变化需注意：7.1 节中小写字母代表变量的取值，本节中代表命题 (或事件)。记号 \(y_x\) 代表 \(Y_x = \text{true}\)，\(y'_x\) 代表 \(Y_x = \text{false}\)。习惯写"A ⊃ B"表示反事实"若是 A 则 B"的读者可把 (9.1) 改写为 \(P_N = P(x' \square\!\Rightarrow y' \mid x, y)\)。

定义 9.2.2 (充分性概率 PS)：

\[ P_S \triangleq P(y_x \mid x', y'). \quad (9.2) \]

PS 测量 x 产生 y 的能力。由于"产生 (production)" 蕴含从 x 与 y 均不存在到它们均存在的转变，故将 \(P(y_x)\) 条件化于 x 与 y 均不存在的情境。因此，镜像测量 x 必要性的 PN，PS 给出"在 x 与 y 实际不存在的情境下，设定 x 将产生 y" 的概率。

定义 9.2.3 (必要且充分原因概率 PNS)：

\[ P_{NS} \triangleq P(y_x, y'_{x'}). \quad (9.3) \]

PNS 代表 y 会在两种方式下都对 x 作出响应的概率，因此既测量 x 产生 y 的充分性，也测量其必要性。

作者随后提及两个相关量。PD (Probability of Disablement, 9.4) \(= P(y'_{x'} \mid y)\) 测量"若无 x 则 y 将被阻止"的概率，对评估各种预防计划社会效果的政策制定者有意义 (Fleiss 1981, pp. 75-6)。PE (Probability of Enablement) \(= P(y_x \mid y')\) 与 PS 类似，但不条件化于 \(x'\)，适用于评估暴露对全体健康个体 (包括已暴露者) 的危险。

虽然这些量中任一都不能确定其余，但它们并非完全独立，由引理 9.2.6 给出。

引理 9.2.6：因果概率 (PNS, PN, PS) 满足

\[ P_{NS} = P(x, y) P_N + P(x', y') P_S. \quad (9.5) \]

证明：由一致性条件 (7.20) \(X = x \Rightarrow Y_x = Y\) 翻译为我们的记号即 \(x \Rightarrow (y_x = y)\)、\(x' \Rightarrow (y_{x'} = y)\)。从而 \(y_x \wedge y'_{x'} = (y_x \wedge y'_{x'}) \wedge (x \vee x') = (y \wedge x \wedge y'_{x'}) \vee (y_x \wedge y' \wedge x')\)。两边取概率并由 x 与 x' 不相交得：

\[ P(y_x, y'_{x'}) = P(y'_{x'} \mid x, y) P(x, y) + P(y_x \mid x', y') P(x', y'). \]

得证。

为聚焦 PN 与 PS 所捕捉的因果方面，作者考虑"使两种度量各自不变的因果模型变动"，得到两个引理。

引理 9.2.7：设 \(z = y \wedge q\) 是 y 的一个后果，可能被 \(q'\) 所抑制。若 \(q \perp\!\!\!\perp \{X, Y, Y_x\}\)，则

\[ P_N(x, z) = P(z'_{x'} \mid x, z) = P(y'_{x'} \mid x, y) = P_N(x, y). \]

把 \(Y_x(u)\) 的过程与 \(z = y \wedge q\) 的链接级联，相当于以概率 \(P(q')\) 抑制过程输出。引理 9.2.7 表明，若 q 被随机化，则加入这样的链接不影响 PN。原因清晰：条件化于 x 与 z 意味着在所考察的情境中，所加入的链接未被 \(q'\) 抑制。证明 (9.6) 直接展开后，用 \(z = y \wedge q\) 的性质 \(q \Rightarrow (z = y)\)，\(q \Rightarrow (z'_{x'} = y'_{x'})\)，\(q' \Rightarrow z'\)，即可把分母化为 \(P(y, x)\)、分子化为 \(P(y'_{x'}, x, y)\)，最终化归为 \(P_N(x, y)\)。

引理 9.2.8：设 \(z = y \vee r\) 是 y 的一个后果，也可能被 r 触发。若 \(r \perp\!\!\!\perp \{X, Y, Y_x\}\)，则

\[ P_S(x, z) = P(z_x \mid x', z') = P(y_x \mid x', y') = P_S(x, y). \]

引理 9.2.8 表示可加入独立的替代原因 (r) 而不影响 PS。原因同样清晰：条件化于 \(x'\) 与 \(y'\) 意味着所加入的原因 (r) 未起作用。引理 9.2.8 的证明与 9.2.7 类似。

由于所有因果度量都涉及对 y 的条件化，且 y 被假定受 x 影响，因此即便在没有混杂的条件下，这些量也不能仅由因果图 \(G(M)\) 与数据 \(P(y)\) 识别。此外，一般情况下任一量不能确定其余。然而，在作者称为"外生性 (exogeneity)" 的无混杂假设下，可推导出简单互关系与有用界。

9.2.2 外生性下的界与基本关系（Bounds and Basic Relationships under Exogeneity）

定义 9.2.9 (外生性)：若且仅当 \(\{Y_x, Y_{x'}\} \perp\!\!\!\perp X\)，则变量 X 在模型 M 中相对 Y 是外生的。

(9.7) 是 5.30 与 6.10 的加强版，涉及联合变量 \(\{Y_x, Y_{x'}\}\)。该定义在 Rosenbaum and Rubin (1983) 中被称为"强可忽略性 (strong ignorability)"，与 Christ (1966, p. 156) 基于误差的外生性准则以及 3.3.1 节的后门准则吻合。5.30 的弱版本对本章除 (9.11)、(9.12)、(9.19) 外的所有结果已足够，(9.11)、(9.12)、(9.19) 需要强外生性 (9.7)。

外生性的重要意义在于允许识别 \(\{P(y_x), P(y_{x'})\}\)，即 X 对 Y 的因果效应。由 \(x \Rightarrow (y_x = y)\)，得

\[ P(y_x) = P(y_x \mid x) = P(y \mid x). \quad (9.8) \]

\(P(y_{x'})\) 类似归约。

定理 9.2.10：在外生条件下，

\[ \max[0, P(y \mid x) - P(y \mid x')] \le P_{NS} \le \min[P(y \mid x), P(y' \mid x')]. \quad (9.9) \]

两个界都是"sharp" 的：对任一联合分布 \(P(x, y)\)，存在模型 \(y = f(x, u)\)，u 与 x 独立，实现 (9.9) 范围内 PNS 的任何值。

证明：对任意两事件 A、B，sharp 界为

\[ \max[0, P(A) + P(B) - 1] \le P(A \wedge B) \le \min[P(A), P(B)]. \quad (9.10) \]

由 (9.3) 与 (9.10)，取 \(A = y_x\)，\(B = y'_{x'}\)，\(P(y_x) = P(y \mid x)\)，\(P(y'_{x'}) = P(y' \mid x')\)，即得 (9.9)。显然，若外生性无法确保，则 PNS 由类似于 (9.9) 的不等式界定，只需把 \(P(y_x)\)、\(P(y'_{x'})\) 替换 \(P(y \mid x)\)、\(P(y' \mid x')\)。

定理 9.2.11：在外生条件下，PN、PS、PNS 互相关：

\[ P_N = \frac{P_{NS}}{P(y \mid x)}, \quad P_S = \frac{P_{NS}}{P(y' \mid x')}. \quad (9.11, 9.12) \]

于是 (9.9) 中 PNS 的界给出 PN、PS 对应的界：

\[ \frac{\max[0, P(y \mid x) - P(y \mid x')]}{P(y \mid x)} \le P_N \le \frac{\min[P(y \mid x), P(y' \mid x')]}{P(y \mid x)}. \quad (9.13) \]

该式界定了 PN 在实验研究中的可识别性极限。

推论 9.2.12：若 x 与 y 出现于某实验研究，\(P(y_x)\)、\(P(y_{x'})\) 为该研究测得的因果效应，则对范围内任一点 p

\[ \frac{\max[0, P(y_x) - P(y_{x'})]}{P(y_x)} \le p \le \frac{\min[P(y_x), P(y'_{x'})]}{P(y_x)}, \quad (9.14) \]

存在因果模型 M 与 \(P(y_x)\)、\(P(y_{x'})\) 一致且 \(P_N = p\)。

若有实验与观察两类数据 (如 9.3.4 节)，可对非实验事件建立其他界。这些界的非零宽度说明：在随机 (非拉普拉斯) 模型中——其中每个 u 处 \(Y_x(u)\) 由概率 \(P(Y_x(u) = y)\) 而非单一数字指定——因果概率不能唯一定义。

定理 9.2.11 的证明：由 \(x \Rightarrow (y_x = y)\) 得 \(x \wedge y_x = x \wedge y\)，从而

\[ P_N = P(y'_{x'} \mid x, y) = \frac{P(y'_{x'}, x, y)}{P(x, y)} = \frac{P(y'_{x'}, x, y_x)}{P(x, y)} = \frac{P(y'_{x'}, y_x) P(x)}{P(x, y)} = \frac{P_{NS}}{P(y \mid x)}. \]

(9.12) 由完全类似步骤得到。

为完备起见，PNS 与 enablement、disablement 概率的关系为：

\[ P_D = \frac{P(x) P_{NS}}{P(y)}, \quad P_E = \frac{P(x') P_{NS}}{P(y')}. \quad (9.19) \]

9.2.3 单调性与外生性下的可识别性（Identifiability under Monotonicity and Exogeneity）

在处理 (9.1)-(9.3) 反事实量的一般识别问题之前，先考虑一种实际中常被假定、可使这些量可识别的特殊条件：单调性 (monotonicity)。得到的概率表达式即为文献中常见的、熟悉的因果测度。

定义 9.2.13 (单调性)：当且仅当函数 \(Y_x(u)\) 对所有 u 关于 x 单调，因果模型 M 中的变量 Y 关于变量 X 单调。等价地，Y 关于 X 单调当且仅当 \(y'_{x} \wedge y_{x'} = \text{false}\)。单调性表达了"X 从 false 到 true 的改变不可能在任一情境下让 Y 从 true 变为 false" 这一假设。在流行病学中，该假设常表述为"无预防 (no prevention)"，即人群中没有任何个体可从暴露于风险因素中获益。

定理 9.2.14 (外生性与单调性下的可识别性)：若 X 外生且 Y 关于 X 单调，则 PN、PS、PNS 均可识别，并由 (9.11)-(9.12) 给出，其中

\[ P_{NS} = P(y \mid x) - P(y \mid x'). \quad (9.21) \]

(9.21) 右端在流行病学中称为"风险差 (risk difference)"，也常被误称为"归因风险 (attributable risk)" (Hennekens and Buring 1987, p. 87)。由 (9.11) 可得必要性概率可识别并由"超额风险比 (excess risk ratio)" 给出：

\[ P_N = \frac{P(y \mid x) - P(y \mid x')}{P(y \mid x)}, \quad (9.22) \]

该比常被误称为"归因分数 (attributable fraction, Schlesselman 1982)"、"归因率百分比 (attributable-rate percent, Hennekens and Buring 1987, p. 88)" 或"归因比例 (attributable proportion, Cole 1997)"。字面上看，(9.22) 给出的比与归因无关，因为它由统计量构成而非因果或反事实关系。然而，外生性与单调性这两条假设合起来，可把 PN 定义 (9.1) 中嵌入的归因观念翻译为纯统计关联之比。这表明：外生性与单调性一直被众多提出或导出 (9.22) 作为"暴露病例中可归因于暴露的比例" 的作者们隐含地假定。

Robins and Greenland (1989) 在"随机单调性 (stochastic monotonicity, \(P(Y_x(u) = y) \le P(Y_{x'}(u) = y)\))" 假设下分析了 PN 的识别，并证明该假设过弱以至于不能允许这样的识别；事实上得到的界与 (9.13) 相同。这表明随机单调性对连接 X 与 Y 的函数机制完全不施加约束。

PS 的表达式 (9.12) 同样富有启发：

\[ P_S = \frac{P(y \mid x) - P(y \mid x')}{1 - P(y \mid x')}, \quad (9.23) \]

它与流行病学家所谓的"相对差 (relative difference, Shep 1958)" 吻合，用于度量人群对暴露 x 的易感性 (susceptibility)。易感性定义为"具备某潜在因子使人在暴露后患病" 的人的比例 (Khoury et al. 1989)。PS 提供了对易感性的形式反事实解释，使该定义更为精准并可系统分析。

Khoury et al. (1989) 认识到易感性一般不可识别，并通过三条假设导出 (9.23)：无混杂、单调性、独立性 (即假设对暴露的易感性与不涉及暴露的背景易感性相互独立)。最后一条常被批评为不成立，定理 9.2.14 则保证独立性其实不必要；(9.23) 仅凭外生性与单调性即可成立。

(9.23) 也与 Cheng (1997) 所谓"因果力 (causal power)"——"在抑制 y 的所有其他原因后，x 对 y 的效应"——吻合。PS 的反事实定义 \(P(y_x \mid x', y')\) 提示这一量的另一解释：它在 x 与 y 实际不存在的情况下，测量"设定 x 将产生 y" 的概率。条件化于 \(y'\) 等价于只选取 (或假设) "y 的所有其他原因确实被抑制" 的世界。

但需注意，三种因果概念间的简单关系 (9.11)-(9.12) 仅在外生性假设下成立；在一般非外生情形下，弱关系 (9.5) 成立。此外，所有这些因果概念都用全局关系 \(Y_x(u)\)、\(Y_{x'}(u)\) 定义，对因果的诸多细微差别而言过粗；欲阐明更精细的概念 (例如"实际原因")，常常需要从 X 到 Y 的因果模型的详细结构 (见第 10 章)。

定理 9.2.14 的证明：写 \(y_{x'} \vee y'_{x'} = \text{true}\)，有

\[ y_x = y_x \wedge (y_{x'} \vee y'_{x'}) = (y_x \wedge y_{x'}) \vee (y_x \wedge y'_{x'}), \quad (9.24) \]

而

\[ y_{x'} = y_{x'} \wedge (y_x \vee y'_x) = (y_{x'} \wedge y_x) \vee (y_{x'} \wedge y'_x) = y_{x'} \wedge y_x, \quad (9.25) \]

因为单调性蕴含 \(y_{x'} \wedge y'_x = \text{false}\)。把 (9.25) 代入 (9.24) 得

\[ y_x = y_{x'} \vee (y_x \wedge y'_{x'}). \quad (9.26) \]

对 (9.26) 取概率并由 \(y_{x'}\) 与 \(y'_{x'}\) 不相交，得 \(P(y_x) = P(y_{x'}) + P(y_x, y'_{x'})\)，即

\[ P(y_x, y'_{x'}) = P(y_x) - P(y_{x'}). \quad (9.27) \]

(9.27) 与外生性假设 (9.8) 合起来确立 (9.21)。

9.2.4 单调性与非外生性下的可识别性（Identifiability under Monotonicity and Nonexogeneity）

前述 9.2.10-9.2.14 诸定理均基于外生性假设。本节放宽这一假设，考虑 X 对 Y 的效应被混杂的情形——即 \(P(y_x) \ne P(y \mid x)\)。此时 \(P(y_x)\) 仍可由辅助手段估计 (例如通过对某些协变量调整或通过实验研究)，问题是：这种额外信息能否使因果概率可识别？答案是肯定的。

定理 9.2.15：若 Y 关于 X 单调，则只要因果效应 \(P(y_x)\) 与 \(P(y_{x'})\) 可识别，PNS、PN、PS 均可识别：

\[ P_{NS} = P(y_x, y'_{x'}) = P(y_x) - P(y_{x'}), \quad (9.28) \]

\[ P_N = P(y'_{x'} \mid x, y) = \frac{P(y) - P(y_{x'})}{P(x, y)}, \quad (9.29) \]

\[ P_S = P(y_x \mid x', y') = \frac{P(y_x) - P(y)}{P(x', y')}. \quad (9.30) \]

为看出 (9.29) 与 (9.22) 的区别，展开 \(P(y)\) 得

\[ P_N = \frac{P(y \mid x) P(x) + P(y \mid x') P(x') - P(y_{x'})}{P(y \mid x) P(x)} = \frac{P(y \mid x) - P(y \mid x')}{P(y \mid x)} + \frac{P(y \mid x') - P(y_{x'})}{P(x, y)}. \quad (9.31) \]

右端第一项即熟悉的外生性下超额风险比 (9.22)；第二项是为混杂所作的修正，即 \(P(y \mid x') - P(y_{x'})\)。

(9.28)-(9.30) 给出更精细的因果测度，可用于通过辅助手段识别 \(P(y_x)\) 的情形 (见 9.3.4 节例 4)。还可证明 (9.28)-(9.30) 在一般非单调情形下给出 PNS、PN、PS 的下界 (Tian and Pearl 2000, 11.9.2 节)。

由于 PS、PN 必须非负，(9.29)-(9.30) 提供对单调性假设的简单必要检验：

\[ P(y_x) - P(y) \ge P(y_{x'}), \quad (9.32) \]

它紧于标准不等式 (来自 \(x' \Rightarrow y \vee y_{x'}\) 与 \(x \Rightarrow y' \vee y_{x'}\))：

\[ P(y_{x'}) \ge P(x', y), \quad P(y'_x) \ge P(x, y'). \quad (9.33) \]

J. Tian 证明这些不等式 sharp：满足这些不等式的每一组实验与非实验数据，均可由 Y 关于 X 单调的某个因果模型生成。"无预防" 这一常见假设并非完全免于实证检验，对众多流行病学家来说应是福音。反之，若无预防假设在理论上无懈可击，则 (9.32) 可用于检验实验与非实验数据的相容性，即临床试验所用受试者是否能代表由联合分布 \(P(x, y)\) 表征的目标人群。

定理 9.2.15 的证明：(9.28) 已由 (9.27) 建立。为证 (9.30)，写

\[ P(y_x \mid x', y') = \frac{P(y_x, x', y')}{P(x', y')} = \frac{P(y_x, x', y'_{x'})}{P(x', y')}, \quad (9.34) \]

由一致性 \(x' \wedge y' = x' \wedge y'_{x'}\)。把 (9.26) 与 \(x'\) 合取得 \(x' \wedge y_x = (x' \wedge y_{x'}) \vee (y_x \wedge y'_{x'} \wedge x')\)。两边取概率 (因 \(y_{x'}\) 与 \(y'_{x'}\) 不相交)：

\[ P(y_x, y'_{x'}, x') = P(x', y_x) - P(x', y_{x'}) = P(y_x) - P(x, y_x) - P(x', y) \]

经整理化为 \(P(y_x) - P(y)\)。代入 (9.34) 即得 (9.30)。(9.29) 由完全类似步骤得到。

允许在非外生条件下识别 \(P(y_x)\) 的一类常见模型在第 3 章已举例。第 3.2 节 (3.13) 证明，对正马尔可夫模型 M 中的任意两变量 X、Y，因果效应 \(P(y_x)\) 可识别并由

\[ P(y_x) = \sum_{\text{pa}_X} P(y \mid \text{pa}_X, x) P(\text{pa}_X), \quad (9.35) \]

给出，其中 \(\text{pa}_X\) 是因果图中 X 的父节点 (实现)。因此可把 (9.35) 与定理 9.2.15 结合，得到识别因果概率的具体条件。

推论 9.2.16：对任一正马尔可夫模型 M，若函数 \(Y_x(u)\) 单调，则因果概率 PNS、PS、PN 可识别，由 (9.28)-(9.30) 给出，其中 \(P(y_x)\) 由 (9.35) 给出。

更广的识别条件可通过后门与前门准则 (3.3 节) 得到，适用于半马尔可夫模型。这些在 Galles and Pearl (1995) (见 4.3.1 节) 与 Tian and Pearl (2002a) (定理 3.6.1) 中进一步推广，并得到以下推论。

推论 9.2.17：设 \(G_P\) 为满足定理 3.6.1 图准则的半马尔可夫模型类。若 \(Y_x(u)\) 单调，则 \(G_P\) 中 PNS、PS、PN 可识别，由 (9.28)-(9.30) 给出，其中 \(P(y_x)\) 由 Tian and Pearl (2002a) 算法通过 \(G(M)\) 拓扑决定。

9.3.1 例 1：对公平硬币下注（Betting against a Fair Coin）

对一次公平硬币投掷下注正面或反面：猜对赢一美元，猜错输一美元。假设我们下注正面且赢了一美元，但未瞥见硬币实际结果。下注是赢的必要原因 (或充分原因、或两者) 吗？

本例与 1.4.4 节 (图 1.6) 讨论的临床试验同构。设 x 代表"我们下注正面"，y 代表"我们赢一美元"，u 代表"硬币正面朝上"。y、x、u 间的函数关系为

\[ y = (x \wedge u) \vee (x' \wedge u'), \quad (9.36) \]

它不单调，但由于模型完全确定，可由定义 (9.1)-(9.3) 计算因果概率。具体地，

\[ P_N = P(y'_{x'} \mid x, y) = P(y'_{x'} \mid u) = 1, \]

因为 \(x \wedge y \Rightarrow u\) 且 \(Y_{x'}(u) = \text{false}\)。换言之，知道当前下注 (x) 与当前赢 (y)，可推断硬币结果必为正面 (u)，由此进一步推断若下注反面 (\(x'\)) 反而会输。类似地，

\[ P_S = P(y_x \mid x', y') = P(y_x \mid u) = 1 \]

(因为 \(x' \wedge y' \Rightarrow u\))；以及

\[ P_{NS} = P(y_x, y'_{x'}) = P(y_x, y'_{x'} \mid u) P(u) + P(y_x, y'_{x'} \mid u') P(u') = 1 \cdot 0.5 + 0 \cdot 0.5 = 0.5. \]

可见下注正面有 50% 概率是赢的必要且充分原因。但一旦我们赢了，可 100% 确信下注对赢是必要的；一旦输了 (例如下注反面时)，可 100% 确信下注正面将是赢的充分原因。这种反事实的经验内容在 7.2.2 节中讨论。

易验证，这些反事实量不能仅由 X 与 Y 的联合概率在不知 (9.36) 函数关系的情况下计算；该式告诉我们决定输赢的 (确定性) 策略 (1.4.4 节)。例如，该例的条件概率与因果效应满足 \(P(y \mid x) = P(y \mid x') = P(y_x) = P(y_{x'}) = P(y) = 1/2\)，因为相同的概率可由一个独立于 x 的随机支付策略产生——例如庄家看着硬币结果而忽略我们的下注。在此随机策略下，因果概率 PN、PS、PNS 均为 0。因此，根据可识别性定义 3.2.3，若两模型关于 P 一致而关于某量 Q 不一致，则 Q 不可识别。的确，定理 9.2.10 (9.9) 所列界为 \(0 \le P_{NS} \le 1/2\)，意味着三种因果概率不能仅由 X、Y 的统计数据确定，即便在受控实验中；如 (9.36) 所示函数机制的知识是必需的。

值得注意的是，硬币在下注之前还是之后投掷，对按定义计算的因果概率并无影响。这与某些概率因果理论 (例如 Good 1961) 形成对照，后者试图通过把所有概率条件化于"原因 x 发生前一刻的世界状态" 来避免确定性机制。在我们的下注故事中，其意图是把所有概率条件化于硬币状态 (u)，但若硬币在下注之后才投掷，这一意图就无法实现。把条件集合丰富化以包含原因 x 之后发生的事件，已被引回涉及反事实变量的确定性关系 (Cartwright 1989, Eells 1991，7.5.4 节讨论)。

当然有人会争辩，若硬币在下注之后才投掷，那么"若我们下注不同，赢钱是否会不同" 完全不清楚；光是下注的话语本身可能就会影响硬币轨迹 (Dawid 2000)。这种异议可通过把 x 与 u 放在两个远程地点，并在下注之后、但任何光线从下注室抵达投币室之前一瞬间投掷硬币来化解。在这种假想情境下，"若我们下注不同则赢钱会不同" 这一反事实陈述相当令人信服，尽管条件事件 (u) 发生于原因 (x) 之后。作者结论：用"x 之前一刻的世界状态" 这类时间描述无法正确识别问题中合适的条件事件集 (u)；为表述"因果概率" 的概念，需要涉及机制 (mechanisms) 的确定性模型。

9.3.2 例 2：行刑队（The Firing Squad）

回到 7.1.2 节的行刑队 (图 9.1)：A、B 为射手，C 为队长 (等待法庭命令 U)，T 为死囚。设 u 为"法庭已下令行刑"的命题，x 为"A 扣动扳机"的命题，y 为"T 已死"。仍假设 \(P(u) = 1/2\)，A 与 B 是警觉且守法、神射无误的射手，T 不会因惊吓或其他外部原因而死。我们想计算 x 是 y 的必要 (或充分、或两者) 原因的概率，即计算 PN、PS、PNS。

定义 9.2.1-9.2.3 允许直接从给定因果模型计算这些概率，因为所有函数与概率都已确定，每个变量的真值随 U 走。因此

\[ P(y_x) = P(Y_x(u) = \text{true}) P(u) + P(Y_x(u') = \text{true}) P(u') = \frac{1}{2}(1+1) = 1. \quad (9.37) \]

类似地

\[ P(y_{x'}) = P(Y_{x'}(u) = \text{true}) P(u) + P(Y_{x'}(u') = \text{true}) P(u') = \frac{1}{2}(1+0) = \frac{1}{2}. \quad (9.38) \]

为计算 PNS，需估计联合事件 \(y'_{x'} \wedge y_x\) 的概率。给定这两个事件仅在 \(U = \text{true}\) 时同时为真，则

\[ P_{NS} = P(y_x, y'_{x'}) = P(y_x, y'_{x'} \mid u) P(u) + P(y_x, y'_{x'} \mid u') P(u') = \frac{1}{2}(0+1) = \frac{1}{2}. \quad (9.39) \]

PS 与 PN 的计算也因 PN 的条件事件 \(x \wedge y\)、PS 的条件事件 \(x' \wedge y'\) 各仅在 U 的一个状态下为真而得以简化。因此

\[ P_N = P(y'_{x'} \mid x, y) = P(y'_{x'} \mid u) = 0, \]

反映出法庭下令行刑 (u) 后，即便 A 不射击 (\(x'\))，T 也会因 B 的射击而死 (y)。的确，得知 T 死后可断言行刑队 A 的射击不是死亡的必要原因。

类似地，

\[ P_S = P(y_x \mid x', y') = P(y_x \mid u') = 1, \]

这与我们的直觉一致：神射的射击足以造成 T 的死，无论法庭是否下令。

注意，定理 9.2.10 与 9.2.11 不适用于本例，因为 x 非外生；事件 x 与 y 有共同原因 (队长信号)，使得 \(P(y \mid x') = 0 \ne P(y_{x'}) = 1/2\)。然而，Y 关于 x 的单调性允许我们从联合分布 \(P(x, y)\) 与因果效应 (用 (9.28)-(9.30)) 计算 PNS、PS、PN，而无需查看函数模型。事实上，写

\[ P(x, y) = P(x', y') = \frac{1}{2} \quad (9.40) \]

与

\[ P(x, y') = P(x', y) = 0, \quad (9.41) \]

得到

\[ P_N = \frac{P(y) - P(y_{x'})}{P(x, y)} = \frac{1 - 1/2}{1/2} = 1, \quad (9.42) \]

\[ P_S = \frac{P(y_x) - P(y)}{P(x', y')} = \frac{1 - 1/2}{1/2} = 1, \quad (9.43) \]

与预期一致。

9.3.3 例 3：辐射对白血病的影响（The Effect of Radiation on Leukemia）

考虑以下数据 (表 9.1，改编自 Finkelstein and Levin 1990)：比较犹他州南部在高、低辐射暴露 (来自内华达核试验尘埃) 下儿童白血病死亡数。给定这些数据，我们希望估计高辐射暴露是白血病死亡之必要 (或充分、或两者) 原因的概率。

	高暴露 (x)	低暴露 (x')
死亡 (y)	30	16
存活 (y')	69,130	59,010

假设单调性——暴露于核辐射对研究中任何个体均无治疗作用——则过程可由简单析取机制 (disjunctive mechanism) 表示为方程

\[ y = f(x, u, q) = (x \wedge q) \vee u, \quad (9.44) \]

其中 u 代表 y 的"所有其他原因"，q 代表 x 触发 y 所必需的"使能" 机制。假设 q 与 u 均未观察到，则问题是在什么条件下我们能从 X 与 Y 的联合分布识别因果概率 (PNS、PN、PS)。

由于 (9.44) 关于 x 单调，定理 9.2.14 表明：只要 X 外生 (即 x 独立于 q 与 u)，三个量均可识别。(9.21)-(9.23) 进一步允许我们由频率数据计算因果概率。用分数代表概率，表 9.1 数据给出

\[ P_{NS} = P(y \mid x) - P(y \mid x') = \frac{30}{30+69130} - \frac{16}{16+59010} = 0.0001625, \quad (9.45) \]

\[ P_N = \frac{P_{NS}}{P(y \mid x)} = \frac{P_{NS}}{30 / (30+69130)} = 0.37535, \quad (9.46) \]

\[ P_S = \frac{P_{NS}}{1 - P(y \mid x')} = \frac{P_{NS}}{1 - 16/(16+59010)} = 0.0001625. \quad (9.47) \]

统计上，这些数字意味着：

任一随机抽取的儿童若暴露会死于白血病、若不暴露则幸存的机会为万分之一 (1.625 in ten thousand)；
一名死于白血病的暴露儿童若未暴露则幸存的机会为 37.544%；
任一未暴露且存活的儿童若暴露则死于白血病的机会为万分之一 (1.625 in ten thousand)。

Glymour (1998) 分析了本例以识别 \(P(q)\) (Cheng 所谓"因果力")，与 PS 吻合 (见引理 9.2.8)。Glymour 结论：在 x、u、q 相互独立的条件下，\(P(q)\) 可识别并由 (9.23) 给出。本章分析显示 Glymour 结果可在若干方向上推广。首先，由于 Y 关于 X 单调，(9.23) 的有效性在 q 与 u 依赖时依然成立，因为外生性仅要求 x 与 \(\{u, q\}\) 联合独立。这在流行病学情境下很重要，因为个体对核辐射的易感性很可能与其他潜在白血病原因 (例如天然辐射) 的易感性相关。

其次，定理 9.2.11 保证 PN、PS、PNS 之间的关系 (9.11)-(9.12)，即便 u 与 q 相互依赖，Glymour 在 q 与 u 独立时导出的这些关系依然成立。

最后，定理 9.2.15 保证：即便 x 不独立于 \(\{u, q\}\)，只要 (9.44) 的机制嵌入于允许识别 \(P(y_x)\)、\(P(y_{x'})\) 的更大因果结构，PN 与 PS 仍可识别。例如，假设核辐射暴露 (x) 被怀疑与地形和海拔相关，而这些因素也决定宇宙辐射的暴露。反映这一考量的模型如图 9.2，其中 W 代表同时影响 X 与 U 的因素。一种校正 X 对 Y 因果效应潜在混杂偏差的自然方法是对 W 调整，即用标准调整公式 (3.19)

\[ P(y_x) = \sum_w P(y \mid x, w) P(w), \quad P(y_{x'}) = \sum_w P(y \mid x', w) P(w) \quad (9.48) \]

(而不是 \(P(y \mid x)\) 与 \(P(y \mid x')\)) 来计算 \(P(y_x)\) 与 \(P(y_{x'})\)，其中求和遍历 W 的各水平。该调整公式 (由 (9.35) 推出) 只要 W 代表同时影响 X 与 Y 的全部共同因素 (见 3.3.1 节)，无论 X 与 Y 间中介机制如何，均正确。

定理 9.2.15 指示我们：把 (9.48) 代入 (9.29) 与 (9.30) 分别得到 PN、PS，并保证所得表达式是 PN、PS 的一致估计。这一致性由单调性假设与 (假定的) 因果图拓扑共同保证。

注意，(9.20) 所定义的单调性是 x 与 y 之间所有路径的全局性质。因果模型可在这些路径上包含多个非单调机制而不影响 (9.20) 的有效性。然而，对单调性有效性的论证必须基于实质性信息，因为一般情况下它不可检验。例如 Robins and Greenland (1989) 论证：核辐射暴露对某些个体可能有益，因为这种辐射在临床上常规用于治疗癌症患者。(9.32) 中的不等式构成对单调性的统计检验 (尽管较弱)，该检验基于实验与观察两类研究。

9.3.4 例 4：实验与非实验数据下的法律责任（Legal Responsibility from Experimental and Nonexperimental Data）

某诉讼针对药物 x 的制造商提起，指控该药很可能造成了 A 先生 (为缓解与疾病 D 相关的症状 S 而服用此药) 的死亡。

制造商辩称：有症状 S 患者的实验数据明确显示药物 x 仅造成死亡率的微小上升。然而原告辩称：该实验研究与本案关系不大，因为它代表药物对所有患者的效应，而非对像 A 先生这样实际在服药时死亡的患者。此外，原告说 A 先生独特之处在于他自愿服药，与实验中为遵守方案而服药的患者不同。为支持该论点，原告提供非实验数据，表明大多数自愿选择药物 x 的患者若无此药则仍然存活。制造商则反驳：(1) 关于患者是否本会存活的反事实推测纯属形而上学，应予避免 (Dawid 2000)；(2) 非实验数据应先验地予以排除，因为这类数据可能被外部因素严重混杂。法庭必须基于实验与非实验两类研究，判定药物 x 实际上造成 A 先生死亡的概率。

两类研究的 (假设) 数据见表 9.2。

	实验		非实验
	x	x'	x	x'
死亡 (y)	16	14	2	28
存活 (y')	984	986	998	972

实验数据给出估计 \(P(y_x) = 16/1000 = 0.016\)、\(P(y_{x'}) = 14/1000 = 0.014\)；非实验数据给出 \(P(y) = 30/2000 = 0.015\)、\(P(y, x) = 2/2000 = 0.001\)。代入 (9.29) (它为 PN 提供下界，见 (11.42))，得

\[ P_N = \frac{P(y) - P(y_{x'})}{P(y, x)} = \frac{0.015 - 0.014}{0.001} = 1.00. \quad (9.53) \]

因此原告是正确的；除抽样误差外，数据让我们 100% 确定药物 x 实际上是 A 先生死亡的原因。注意，直接用实验超额风险比会给出更低 (且不正确) 的结果：

\[ \frac{P(y_x) - P(y_{x'})}{P(y_x)} = \frac{0.016 - 0.014}{0.016} = 0.125. \quad (9.54) \]

显然，实验研究未揭示的是：若可选择，末期患者会回避药物 x。事实上，若有任何末期患者 (可选择时) 选择 x，那么对照组 (\(x'\)) 中就会包含这样的患者 (由于随机化)，从而对照组中死亡比例 \(P(y_{x'})\) 会高于 \(P(x', y)\) (人群中末期患者回避 x 的比例)。然而，\(P(y_{x'}) = P(y, x')\) 告诉我们：对照组中没有这样的患者；从而 (由随机化) 一般人群中也不存在这样的患者，因此自愿选择药物 x 的患者中没有末期患者，全部对 x 易感。

表 9.2 中的数字显然是刻意构造以代表极端情形，从而便于对 (9.29) 的有效性作定性解释。尽管如此，值得注意的是：实验与非实验研究的组合可揭示实验研究单独不能揭示的信息；此外，这种组合可为实验程序的充分性提供必要检验。例如，若表 9.2 的频率稍有不同，则它们很容易在 (9.53) 中给出大于 1 的 PN 值，或违反 (9.33) 中的基本不等式。此类违反将指示实验与非实验组别不相容，可能由于抽样不充分。

最后这一点可能值得解释一下，免得读者疑惑为什么两组数据——分别来自不同实验条件下的两组——应当相互制约。解释是：在两组子总体中若干量被预期对所有这些差异不变，条件是两组子总体被正确地从一般人群中抽样。这些不变量就是因果效应概率 \(P(y_{x'})\) 与 \(P(y_x)\)。尽管这些反事实概率在观察组中未被测量，但 (根据定义) 它们必然与实验组中测得的值相同。这种不变性是受控实验的基本公设，没有它，从实验研究到人群总体行为的任何推断都不可能。这种不变性蕴含 (9.33) 中的不等式；若单调性成立，则得到 (9.32)。

9.3.5 结果总结（Summary of Results）

本节汇总 9.2 与 9.3 节中应有益于从业流行病学家与政策制定者的结果。表 9.3 列出在各种假设与各种数据下 PN 的最佳估计量 (nonexperimental event 的最佳 estimand)；假设越强，估计越有信息量。

表 9.3 标注：ERR (excess risk ratio) \(= 1 - P(y \mid x') / P(y' \mid x')\)；corrected ERR 由 (9.31) 给出。

我们看到，超额风险比 (ERR)，流行病学家常把它等同于因果概率，仅在两条假设可确立时是 PN 的有效测度：外生性 (无混杂) 与单调性 (无预防)。当单调性不成立时，ERR 仅提供 PN 的下界，如 (9.13) 所示 (上界通常为 1)。表 9.3 右端的空白 (—) 代表空泛界 (即 \(0 \le P_N \le 1\))。在混杂存在时，ERR 必须由附加项 \([P(y \mid x') - P(y_{x'})] / P(x, y)\) 校正，如 (9.31) 所述。换言之，当因果效应的混杂偏差为正时，PN 比 ERR 高出该附加项那么多。显然，由于分母 \(P(x, y)\) 的存在，PN 偏差可能比因果效应偏差 \(P(y \mid x') - P(y_{x'})\) 大数倍。然而，混杂仅源于暴露与影响结果的其他因素之间的关联；不必顾虑这些因素与对暴露的易感性之间的关联 (见图 9.2)。

表 9.3 最后一行对应于无任何假设的情形，导致 PN 的空泛界，除非有组合数据。但这并不意味除单调性与外生性外其他可辩护假设不能帮助使 PN 可识别。这些假设的使用将在下一节探讨。

9.4 非单调模型中的识别（IDENTIFICATION IN NONMONOTONIC MODELS）

本节讨论在不假设单调性的条件下因果概率的识别。假设给定因果模型 M，其中所有函数关系已知，但背景变量 U 未观察到，故其分布未知，模型说明不完整。

我们的第一步将研究在什么条件下 \(P(u)\) 可识别，从而使整个模型可识别。若 M 是马尔可夫模型，则问题可通过分别考虑每个父母—孩子家族来分析。考虑 M 中任意方程

\[ y = f(\text{pa}_Y, u_Y) = f(x_1, x_2, \ldots, x_k, u_1, \ldots, u_m), \quad (9.55) \]

其中 \(U_Y = \{U_1, \ldots, U_m\}\) 是出现在 Y 方程中的背景 (可能相依) 变量集。一般而言，\(U_Y\) 的域可以是任意的、离散的或连续的，因为这些变量代表从模型中省略掉的未观察因素。然而，由于观察变量是二值的，从 \(\text{pa}_Y\) 到 Y 的函数数有限 (为 \(2^{(2^k)}\))，对任一点 \(U_Y = u\)，仅有这些函数之一被实现。这定义了 \(U_Y\) 域到一个等价类集 S 的典范划分 (canonical partition)，其中每个等价类 \(s \in S\) 导出从 \(\text{pa}_Y\) 到 Y 的同一函数 \(f^{(s)}\) (见 8.2.2 节)。因此，当 u 遍历其域时，一组 S 这样的函数被实现；我们可把 S 视为新的背景变量，其值对应于从 \(\text{pa}_Y\) 到 Y 的可实现函数集 \(\{f^{(s)} : s \in S\}\)。这样的函数数目通常小于 \(2^{(2^k)}\)。

例如，考虑图 9.2 描述的模型。当背景变量 (Q, U) 遍历其各自域时，X 与 Y 间的关系跨越三个不同函数：\(f^{(1)}: Y = \text{true}\)、\(f^{(2)}: Y = \text{false}\)、\(f^{(3)}: Y = X\)。第四种可能函数 \(Y = \neg X\) 从不被实现，因为 \(f_Y(\cdot)\) 是单调的。单元 \((q, u)\) 与 \((q', u)\) 导出 X 与 Y 间同一函数，故属于同一等价类。

若给定分布 \(P(u_Y)\)，则可计算分布 \(P(s)\)，并通过对所有将 \(\text{pa}_Y\) 映为真值的函数 \(f^{(s)}\) 求和 \(P(s)\)，得到条件概率 \(P(y \mid \text{pa}_Y)\)：

\[ P(y \mid \text{pa}_Y) = \sum_{s : f^{(s)}(\text{pa}_Y) = \text{true}} P(s). \quad (9.56) \]

为确保模型可识别，充分条件是我们能反转过程并从 \(P(y \mid \text{pa}_Y)\) 决定 \(P(s)\)。若条件概率集 \(P(y \mid \text{pa}_Y)\) 由向量 \(p^S\) (维度 \(2^k\)) 表示，\(P(s)\) 由向量 \(q^S\) 表示，则 (9.56) 定义 \(p^S\) 与 \(q^S\) 间可表示为矩阵乘法的线性关系 (如 (8.13))：

\[ p^S = R q^S, \quad (9.57) \]

其中 R 是 \(2^k \times |S|\) 矩阵，其元素为 0 或 1。因此，识别的一个充分条件是 R 与正规化方程 \(\sum_j q^S_j = 1\) 一起可逆。

一般而言，R 不可逆，因为 \(q^S\) 的维数可远大于 \(p^S\)。然而，在许多情形下，例如"noisy OR" 机制

\[ Y = U_0 \vee \bigvee_{i=1,\ldots,k} (X_i \wedge U_i), \quad (9.58) \]

对称性允许 \(q^S\) 由 \(P(y \mid \text{pa}_Y)\) 识别，即使外生变量 \(U_0, U_1, \ldots, U_k\) 不独立。这可由以下观察看出：每个 \(U_0 = \text{false}\) 的点 u 定义唯一的函数 \(f^{(s)}\)，因为若 T 为使 \(U_i\) 为真的指标集，则 \(\text{pa}_Y\) 与 Y 间关系变为 \(Y = U_0 \vee \bigvee_{i \in T} X_i\)；对 \(U_0 = \text{false}\)，该方程为每个 T 定义不同函数。导出函数数为 \(2^k - 1\)，(减去 1 作正规化) 恰好等于 \(\text{pa}_Y\) 不同实现的数目。此外，易证连接 \(p^S\) 与 \(q^S\) 的矩阵可逆。因此我们结论：在任何由 noisy OR 机制组成的马尔可夫模型中，每条反事实句的概率都可识别，无论每个家族中的背景变量是否相互独立。同样的结论显然对 noisy AND 机制或任何组合 (包括取反机制) 成立，只要每个家族仅含一种类型机制。

为把该结果推广至 noisy OR 和 noisy AND 之外的机制，需注意——尽管本例中 \(f_Y(\cdot)\) 关于每个 \(X_i\) 单调——保证可识别性的是 \(f_Y(\cdot)\) 的冗余性 (redundancy) 而非其单调性。以下是单调但 R 矩阵不可逆的反例：

\[ Y = (X_1 \wedge U_1) \vee (X_2 \wedge U_1) \vee (X_1 \wedge X_2 \wedge U_3). \]

该函数对 \(U_3 = \text{false}\) 代表 noisy OR 门；对 \(U_3 = \text{true}\) 且 \(U_1 = U_2 = \text{false}\) 时变为 noisy AND 门。等价类数为 6，需要 5 个独立方程以决定其概率；数据 \(P(y \mid \text{pa}_Y)\) 仅提供 4 个这样的方程。

相比之下，由以下函数支配的机制虽然非单调但可逆：

\[ Y = \text{XOR}(X_1, \text{XOR}(U_2, \ldots, \text{XOR}(U_{k-1}, \text{XOR}(X_k, U_k)))), \]

其中 XOR 代表异或。该方程从 \(\text{pa}_Y\) 到 Y 仅导出两个函数：

\[ Y = \begin{cases} \text{XOR}(X_1, \ldots, X_k), & \text{若 } \text{XOR}(U_1, \ldots, U_k) = \text{false}, \\ \neg\text{XOR}(X_1, \ldots, X_k), & \text{若 } \text{XOR}(U_1, \ldots, U_k) = \text{true}. \end{cases} \]

一个条件概率，例如 \(P(y \mid x_1, \ldots, x_k)\)，因此足以计算识别所需的唯一参数 \(P[\text{XOR}(U_1, \ldots, U_k) = \text{true}]\)。

我们把这些考虑汇成以下定理。

定义 9.4.1 (局部可逆, Local Invertibility)：若对每个变量 \(V_i \in V\)，\(2^k - 1\) 个方程

\[ P(y \mid \text{pa}_i) = \sum_{s : f_i^{(s)}(\text{pa}_i) = \text{true}} q_i(s), \quad (9.60) \]

\[ \sum_s q_i(s) = 1, \quad (9.61) \]

对 \(q_i(s)\) 有唯一解，其中每个 \(f_i^{(s)}(\text{pa}_i)\) 对应等价类 s 中 \(u_i\) 所导出的函数 \(f_i(\text{pa}_i, u_i)\)，则称模型 M 局部可逆。

定理 9.4.2：给定马尔可夫模型 \(M = \langle U, V, \{f_i\} \rangle\)，其中函数 \(\{f_i\}\) 已知、外生变量 U 未观察到；若 M 局部可逆，则每条反事实句的概率可由联合概率 \(P(y)\) 识别。

证明：若 (9.60) 对 \(q_i(s)\) 有唯一解，则可用 S 替换 U 得到如下等价模型 \(M' = \langle S, V, \{f'_i\} \rangle\)，其中 \(f'_i = f_i^{(s)}(\text{pa}_i)\)。模型 \(M'\) 与 \(q_i(s)\) 完全确定一个概率因果模型 \(\langle M', P(s) \rangle\) (由于马尔可夫性质)，由此反事实概率按定义可导出。

定理 9.4.2 提供识别因果概率的充分条件，但当然不能穷尽有助于达成识别的假设谱系。在许多情形下，我们可能有理由对模型假设额外结构——例如每个家族中的 U 变量本身相互独立。在此情形下，附加约束被加诸概率 \(P(s)\)，(9.60) 即使在 S 基数远大于条件概率 \(P(y \mid \text{pa}_Y)\) 数目时也可解出。

9.5 结论（CONCLUSIONS）

本章阐明并分析了因果关系必要成分与充分成分的相互作用。借助依托于结构模型语义的反事实解释，我们展示了反事实概率计算的简单技术如何被用于计算因果概率、决定识别问题、揭示因果概率可由统计数据估计的条件，并为分析者与调查者常 (常不自觉地) 做出的假设设计检验。

在实践层面，我们为流行病学家与健康科学家提供了若干有用工具 (部分汇总于表 9.3)。本章表述并唤起注意以下微妙假设：在用超额风险比等统计测度代表因果量 (例如归因风险或因果概率) 之前，这些假设必须确立 (定理 9.2.14)。本章展示了实验与非实验研究的数据如何组合起来得到任一方单独不能揭示的信息 (定理 9.2.15 与 9.3.4 节)。最后，本章提供对常见"无预防" 假设的检验 (9.32)，以及对"临床研究是否代表其目标人群" 这一常被问到的问题的检验。

在概念层面，我们已看到必要性概率 (PN) 与充分性概率 (PS) 都在我们对因果的理解中扮演角色，每个成分各有其逻辑与计算规则。尽管反事实意义下的必要原因 ("若无该行动则结果不会发生") 在法律情境 (Robertson 1997) 与日常话语中占主导地位，充分性成分对因果思维仍有确切影响。

充分性成分的重要性可在必要成分或休眠或必成的例子中揭示。为何我们认为擦火柴 (striking a match) 是火灾比氧气的存在更恰当的解释？以 PN 与 PS 的语言重新表述，我们注意：既然两种解释对火灾都是必要的，它们各自都获得 1 的 PN。事实上，若我们允许点燃火花的替代方式，氧气的 PN 实际更高。因此，必然是充分性成分赋予火柴比氧气更大的解释力。若擦火柴与氧气存在的概率分别记为 \(p_m\) 与 \(p_o\)，则这些解释相关的 PS 测度分别为 \(P_S(\text{match}) = p_o\)、\(P_S(\text{oxygen}) = p_m\)，显然在 \(p_o \gg p_m\) 时偏向火柴。因此，被指示解释"火灾为何发生" 的机器人不得不同时考虑 PN 与 PS。

PS 应否进入刑事与侵权法的考量？作者认为应如此——与 Good (1993) 立场一致——因为关注充分性意味着关注行动后果。擦火柴者本应预见氧气的存在；而供应 (或可以但未移除) 氧气的人一般不被期待能预见擦火柴仪式。

然而，法律应赋予必要成分与充分成分何种权重？这一问题显然超出本章调查范围，且完全不清楚谁有资格处理此问题，或我们的法律体系是否会准备实施该建议。作者希望，无论谁承担此类问题的考虑，都能发现本章分析有所助益。下一章将必要与充分的各方面结合以阐明一个更精细的概念："实际原因 (actual cause)"。

本章个人批注

本章在 Pearl 整本书的论证架构中承担"识别"主题的收束任务：从 1.4 节通过反事实概率的初次操作、3 章因果效应识别、7 章结构反事实逻辑，到 8 章不完美实验下的界估计，本章正式把"必要原因 vs 充分原因"这两个并行概念作为一类带可识别性条件的目标量给出系统处理。第 9.4 节则把视野从二元单调化的可识别充分条件推广到一般的局部可逆 (Local Invertibility) 框架，为第 10 章"实际原因"以及更高阶反事实的概率计算铺路。

让我印象最深的是定理 9.2.15 与 9.3.4 例 4 联读后的效果：单独一个临床试验的 ERR 给出的 PN 估计 (0.125) 与结合观察数据后用 (9.29) 给出的真实 PN (1.00) 之间存在 8 倍差距，并且这种差距的根源——"末期患者回避该药"——是任何仅看试验组数据的人无法察觉的。这是一个对流行病学方法学极具说服力的反例：把试验数据与观察数据视为"不同质量的两类信息" 而非"两个可叠加的估计量" 是 Pearl 的核心洞察。我注意到 (9.32) 给出单调性的必要检验与 (9.33) 给出标准界，二者 sharp 性 (Tian) 意味着：如果研究者的实验设计违背了随机化 (使受试者不具代表性)，那么 (9.32) 会直接失败——这是一种面向研究者的、数据驱动的一致性检验，比传统 Cochrane-style 风险评估更精准。

Pearl 在 9.3.5 节表 9.3 中给出的"假设 × 数据" 矩阵 (行 = 单调性 / 外生性 / 协变量控制的不同组合，列 = 实验 / 观察 / 组合)，用一张表把识别能力当作条件依赖结构来梳理，这种思路在计量经济学中 (Imbens & Rubin 风格) 也有对应物，但 Pearl 的版本更紧凑且与因果图直接绑定。我在读时想到可拓展的方向：把这一矩阵扩展到多重暴露 / 多中介 / 时变协变量情形下是否仍维持这一简洁？但第 9.4 节的局部可逆框架已暗示：表 9.3 只刻画了"线性 / 单调" 这一简单家族，更一般的非单调机制已属于第 9.4 节那种以矩阵 R 可逆性作为判据的更难刻画的问题。

把 PN 与 PS 并列定义 (9.1)-(9.3) 的动机——区分"为个体已发生事件负责" 与"为类型倾向负责"——是本章最具哲学意味的部分。Pearl 用火柴 vs 氧气的例子把这一区分戏剧化：两者 PN 都是 1，但 PS 截然不同。这一对比让我想起 Judea Pearl 长期主张的"充分性优先于必要性" 的反主流立场 (与法学界主流 "but for" 标准相反)，他在本章结尾对"实际原因" 进入下一章的预告也强化了这一点。本章是 Pearl 用形式化工具承担规范性论辩的一次集中演示。

与上下章的衔接（一段话）

第 8 章研究不完美实验 (imperfect experiments) 下因果效应与反事实概率的可识别性：当干预未完全随机化、缺失数据、或仅能获得观察数据时，如何用界估计量化因果量；其技术核心围绕 Tian-Pearl 的 LP 界与 do-calculus。第 9 章则把"识别"主题从因果效应 (\(P(y \mid do(x))\)) 推向更细的因果概率 (PN、PS、PNS)，它们都是反事实事件的条件概率，刻画"具体事件—具体原因" 的归责强度。第 7 章是这一延伸的逻辑准备：它建立了结构反事实语义 (7.1) 并给出三大公设 (T1-T3)，而 PN、PS、PNS 的定义 (9.1)-(9.3) 正是直接套用这一语义。第 9.2 节给出在单调性与外生性两个简化假设下的封闭表达式 (9.21)-(9.23)，本质上把"统计量 → 因果量" 的等价翻译条件形式化；9.3 节用四个例子 (硬币下注、行刑队、辐射-白血病、药物诉讼) 把这些公式的可解释性逐一演练，特别在 9.3.4 节展示了实验+观察组合相对于单独 ERR 的信息优势。第 9.4 节突破单调性约束，用局部可逆矩阵 (9.57) 给出非单调机制的识别充要条件，预告了下一主题。第 10 章将进一步细化到"实际原因 (actual cause)"——这是 PN 与 PS 在具体事件层面的更精细整合，回答"具体地、是谁 / 何物造成了 Y？" 这一问题，从而把第 9 章末尾预告的"必要 + 充分" 的综合落实到单一个案的归责分析上。