第 8 章：不完美实验——效应的界与反事实（Imperfect Experiments: Bounding Effects and Counterfactuals）

8.1 引言（INTRODUCTION）

本章主题：把第 3.2 节的图模型和第 7.1 节的反事实模型结合起来，从不完美实验中提取因果信息。"不完美"指的是偏离随机对照试验的标准协议，典型情形是临床试验中受试者未完全遵从分配到的处理。识别条件不满足时，研究者能给出的最佳结果是因果效应的界——即一个取值范围，反映对数据生成机制的不确定；该范围不会随样本量增大而缩小。本章展示三件事：(i) 此类界可以用简单的代数方法推出；(ii) 即使实验不完美，推出的界仍能对政策在总体上以及对特定个体的效应给出显著且有时相当准确的信息；(iii) 先验知识可以有效地纳入，从而对这些效应进行贝叶斯估计。

8.1.1 不完美实验与间接实验（Imperfect and Indirect Experiments）

生物学、医学和行为科学的标准实验研究都采用随机对照这一工具：把受试者随机分配到各组（处理或方案），把不同组间的平均差异视为对应方案的效用。理想协议的任何偏离都会引入偏差，或是因为实验要求未被满足，或是研究者刻意放松了某些要求。间接实验指随机对照不可行或不可取的研究：受试者仍然被随机分配到各组，但每组成员只是被"鼓励"（而非强制）参加对应方案——最终选择权在个人。

最近严格随机化在社会和医学实验中被质疑，主要有三方面原因。第一，完美对照难以实现或确认：临床试验中若有受试者因副作用自行减量，或对照组成员自行从其他渠道获取药物（Palca 1989 提到 AIDS 试验中安慰剂组的伦理困境），则试验成为间接的，结论有偏；这种偏差除非用详细的依从性模型（如 Efron and Feldman 1991）才能校正。第二，把对照组成员排除在最佳可用治疗之外具有道德和法律后果。第三，随机化本身会影响参与和行为（Heckman 1992；Kramer and Shapiro 1984），符合资格的候选人一旦得知学校随机录取可能不愿申请；药物试验中受试者参加随机试验的意愿也低于参加非试验性研究。

本章关心的情形是：受试者对方案有最终选择权，随机化仅限于一种"鼓励型工具"（或称分配方案 Z）。典型例子是评估培训项目效果时随机向学生寄送资格通知或奖学金，或在药物试验中随机给出剂量建议但最终由受试者按自身需求决定。不完美依从之所以成问题，是因为简单比较处理组与对照组的比例会给出误导性估计——比如那些拒绝服药的人恰好是会产生副作用的人，则试验可能高估药物效力。第 3 章 3.5 节（图 3.7(b)）已经表明，在这种研究中处理效应实质上是不可识别的：即使样本量趋于无穷，即使每个受试者的行动和反应都有记录，处理效应也无法从数据中无偏估计。

本章要回答的核心问题是：间接随机化能否给出足够信息，近似评估方案的内在效力——即如果方案被推广并强制施于全人口时所能达到的效果？分析表明，给定最小集合的假设，确实可以——但结果不是点估计，而是因果效应的界。这些界保证：方案的因果效应必定高于某一可测量量而低于另一可测量量。

本章最关键的假设是：对任何给定的个体，鼓励型工具 Z 仅影响其对处理 X 的选择，而不影响其对所选处理的反应方式（参 7.4.5 节工具变量定义）。第二个假设是受试者对处理的反应彼此独立——这是实验研究一贯的假设。除这两条之外，本章不对"个体对处理的反应倾向"和"个体对处理的选择"之间的交互施加任何限制。

8.1.2 不依从与意向治疗分析（Noncompliance and Intent to Treat）

应对不完美依从的一个流行妥协方法是做"意向治疗"分析（intent-to-treat）：不区分受试者是否真的接受了处理，只比较对照组和处理组。脚注 1 说明这种做法目前被一些 FDA 机构用来批准新药。该分析测度的是分配方案对疾病的效应，而非所关心的"处理本身"对疾病的效应。意向治疗估计的有效性需要实验条件完全模拟最终使用条件——尤其是受试者接受每种处理的激励要与真实使用情形一致。当真实使用激励强于实验激励时（药品获政府批准后通常如此），处理效力可能与分配效应差别很大。举例：一种药对大比例人群有副作用，只有从处理组"退出"的那部分人康复——意向治疗分析会把这些康复归功于药物，但事实上是因为避免了处理才康复。

另一种方法是基于工具变量公式的校正因子（Angrist et al. 1996）：把意向治疗测度除以遵从分配的处理比例。Angrist 等人证明在某些条件下，校正后的公式对"响应者"子总体（若分配不同就会改变处理状态的受试者）有效。但该子总体不可识别；更严重的是，它不能作为面向全人口的政策依据，因为它是工具依赖的——在研究中响应的个体，在真实使用激励不同的现场未必仍响应。因此本章把分析聚焦于处理的稳定方面——即不受依从行为变化影响的那些性质。

8.2 用工具变量界定因果效应的界（BOUNDING CAUSAL EFFECTS WITH INSTRUMENTAL VARIABLES）

本节针对间接实验的基本设置（图 8.1，与图 3.7(b) 和图 5.9 同构）展开分析：把可观察的随机化分配 Z、实际接受的处理 X、观察到的反应 Y 视为二元变量，把所有影响受试者反应的因素（包括可观察与不可观察）放入 U。假设 Z 与 U 边际独立、Z 对 Y 无直接影响（即 Z 仅通过 X 影响 Y），这些假设对联合分布施加分解。本节把估计 ACE(X → Y) 化为一个约束优化问题——给定 P(y, x \mid z_0) 和 P(y, x \mid z_1)，求 (8.4) 式在 (8.2) 等式约束下的极值。进一步用 U 的"典型划分"把问题化为有限状态空间上的线性规划问题（Balke 1995；Pearl 1994a），从而推导出可符号表达的紧界（(8.14a,b)）以及更简洁的"自然界"（(8.17)）。本节最后讨论两个相关量的界定：处理对已治疗者的效应 ETT(X → Y) 和连续响应情形下处理效应的完整分布。

8.2.1 问题表述：约束优化（Problem Formulation: Constrained Optimization）

间接实验对应的基本实验设置如图 8.1 所示（同构于图 3.7(b) 和图 5.9）。讨论聚焦于一个有部分依从的典型临床试验，但分析同样适用于任何工具变量（定义 7.4.1）鼓励受试者选择某方案而非另一方案的研究。假设 Z、X、Y 都是可观察的二元变量：Z 为随机化的处理分配，X 为实际接受的处理，Y 为观察到的反应。U 表示影响受试者对处理反应方式的所有因素（可观察与不可观察），因此图中从 U 到 Y 画一条弧。从 U 到 X 的弧表示 U 因素也可能影响受试者对处理 X 的选择——这种依赖可能代表介于分配（Z）和实际处理（X）之间的复杂决策过程。

记号约定：z 取值 {z0, z1}，z1 表示已分配处理（z0 为否定）；x 取值 {x0, x1}，x1 表示已实施处理（x0 为否定）；y 取值 {y0, y1}，y1 表示观察到的正面反应（y0 为否定）。U 的域未具体指定，可能合并多个随机变量（离散或连续）的空间。

图模型反映两条假设。(1) 分配的处理 Z 对 Y 没有直接影响，仅通过实际处理 X 作用；实际中，Z 对 Y 的任何直接效应都可以用安慰剂调整。(2) 变量 Z 与 U 边际独立——由 Z 的随机化保证，排除了 Z 和 U 的共同原因。这两条假设对联合分布施加分解 $P(y,x,z,u) = P(y \mid x,u)\,P(x \mid z,u)\,P(z)\,P(u) \tag{8.1}$ 该分解不能直接观察，因为 U 不可观察。但边缘分布 P(y, x, z) 以及条件分布 $P(y,x \mid z) = \sum_u P(y \mid x,u)\,P(x \mid z,u)\,P(u), \quad z \in \{z_0,z_1\} \tag{8.2}$ 是可观察的，挑战在于从这些分布评估处理引起的 Y 的平均变化。

处理效应由分布 P(y \mid do(x)) 控制——用 (3.10) 的截断因式分解公式，得 $P(y \mid do(x)) = \sum_u P(y \mid x,u)\,P(u) \tag{8.3}$ 若关心 Y 因处理的平均变化，则应计算平均因果效应 $\mathrm{ACE}(X \to Y) = P(y_1 \mid do(x_1)) - P(y_1 \mid do(x_0)) = \sum_u \big[P(y_1 \mid x_1,u) - P(y_1 \mid x_0,u)\big]P(u) \tag{8.4}$ 任务是：给定可观察概率 P(y, x \mid z_0) 和 P(y, x \mid z_1)（即 (8.2)），估计或界定 (8.4) 的表达式。这相当于一个约束优化问题——在 (8.2) 等式约束下寻找 (8.4) 的最高值和最低值，最大化遍历满足约束的所有可能函数 P(u), P(y_1 \mid x_0, u), P(y_1 \mid x_1, u), P(x_1 \mid z_0, u), P(x_1 \mid z_1, u)。

8.2.2 典型划分：有限响应变量的演化（Canonical Partitions: The Evolution of Finite-Response Variables）

8.2.1 节的界定问题可以用标准数学优化方法求解。但所涉及函数是连续的，且 U 的域未指定，使这种表示不便于计算。可以利用的观察是：U 总能被替换为一个有限状态变量，使得替换后的模型与原模型在 Z、X、Y 的所有观察和操作下等价（Pearl 1994a）。

考虑因果模型中连接两个二元变量 Y 和 X 的结构方程 $y = f(x,u)$ 对任何给定 u，X 与 Y 的关系必为下列四个函数之一：$f_0: y = 0,\quad f_1: y = x,\quad f_2: y = \lnot x,\quad f_3: y = 1 \tag{8.5}$ 当 u 在其域上变化时，无论变化多复杂，它对模型唯一可能的作用是把 X 与 Y 之间的关系在这四个函数之间切换。这把 U 的域划分为四个等价类（图 8.2），每个等价类包含对应同一函数的 u 点。因此可以用一个四状态变量 R(u) 替代 U，每个状态代表四个函数之一。P(u) 自动转译为概率函数 P(r)，r ∈ {0,1,2,3}，等于等价类 r 上的总权重。这种状态极小的变量被 Balke and Pearl (1994a,b) 称为"响应"变量，被 Heckerman and Shachter (1995) 称为"映射"变量；"典型划分"（canonical partition）更为描述性。脚注 3 说明：在实验框架中该划分可追溯到 Greenland and Robins (1986)，Frangakis and Rubin (2002) 命名为"主分层"；该框架下 u 代表实验单位，R(u) 对应单位 u 对处理 x 的潜在响应。脚注还讨论了 Dawid (2000) 等学者对此"宿命式"响应函数假设的反对意见，以及 Pearl (2000) 用等价类形式 R(u) 对这些反对意见的化解：只要承认潜在变量的存在并写出 y = f(x, u)，R(u) 就从任何复杂的随机潜变量系统中自然涌现。

因为 Z、X、Y 都是二元变量，U 的状态空间分为 16 个等价类：每个类决定两个函数映射，一个从 Z 到 X，另一个从 X 到 Y。可以用两个四值变量 R_x 和 R_y 的联合空间中的点来描述这些等价类。R_x 决定受试者的依从行为，映射为 $x = f_X(z,r_x) = \begin{cases} x_0 & \text{if } r_x = 0; \\ x_0 & \text{if } r_x = 1, z = z_0, \\ x & \text{if } r_x = 1, z = z_1, \\ x_1 & \text{if } r_x = 2, z = z_0, \\ x_0 & \text{if } r_x = 2, z = z_1; \\ x_1 & \text{if } r_x = 3 \end{cases} \tag{8.6}$ Imbens and Rubin (1997) 称依从行为 r_x = 0,1,2,3 的受试者分别为"永不接受者""遵从者""反抗者"和"始终接受者"。类似地 R_y 决定响应行为：$y = f_Y(x,r_y) = \begin{cases} y_0 & \text{if } r_y = 0; \\ y_0 & \text{if } r_y = 1, x = x_0, \\ y_1 & \text{if } r_y = 1, x = x_1, \\ y_1 & \text{if } r_y = 2, x = x_0, \\ y_0 & \text{if } r_y = 2, x = x_1; \\ y_1 & \text{if } r_y = 3 \end{cases} \tag{8.7}$ Heckerman and Shachter (1995) 称 r_y = 0,1,2,3 的响应行为分别为"永不康复""被帮助""被伤害""始终康复"。R_y 的状态与 7.1 节（定义 7.1.4）定义的反事实变量 Y_{x_0} 和 Y_{x_1} 的对应关系为：Y_{x_1} = y_1 当且仅当 r_y ∈ {1,3}（否则为 y_0）；Y_{x_0} = y_1 当且仅当 r_y ∈ {2,3}（否则为 y_0）。

一般而言响应与依从不必独立，因此在图 8.3 中存在双向弧 R_x ⇢ R_y。R_x × R_y 上的联合分布需要 15 个独立参数；这些参数足以确定图 8.3 模型 P(y, x, z, r_x, r_y) = P(y \mid x, r_y) P(x \mid r_x, z) P(z) P(r_x, r_y)，因为 Y 和 X 与图中父节点有固定函数关系。处理的因果效应可直接从 (8.7) 得到：$P(y_1 \mid do(x_1)) = P(r_y = 1) + P(r_y = 3) \tag{8.8}$

\[ P(y_1 \mid do(x_0)) = P(r_y = 2) + P(r_y = 3) \tag{8.9}$ $\mathrm{ACE}(X \to Y) = P(r_y = 1) - P(r_y = 2) \tag{8.10} \]

8.2.3 线性规划表述（Linear Programming Formulation）

阐明 P(y, x \mid z) 的参数与 P(r_x, r_y) 的参数之间的关系，可以得到用于在给定 P(y, x \mid z) 下求 ACE(X → Y) 极小或极大的线性约束集。可观察变量的条件分布 P(y, x \mid z) 由 8 个参数完全确定，记作 p_{00.0} = P(y_0, x_0 \mid z_0), p_{00.1} = P(y_0, x_0 \mid z_1), p_{01.0} = P(y_0, x_1 \mid z_0), p_{01.1} = P(y_0, x_1 \mid z_1), p_{10.0} = P(y_1, x_0 \mid z_0), p_{10.1} = P(y_1, x_0 \mid z_1), p_{11.0} = P(y_1, x_1 \mid z_0), p_{11.1} = P(y_1, x_1 \mid z_1)。概率约束 ∑{n=0}^{1} p = 1 且 ∑{n=0}^{1} p = 1 意味着 p 可以由 6 维空间中的点确定（记为 P 空间）。

联合概率 P(r_x, r_y) 有 16 个参数：$q_{jk} = P(r_x = j, r_y = k) \tag{8.11}$ 其中 j, k ∈ {0,1,2,3}。概率约束 ∑{j=0}^{3} ∑ = 1 意味着 q 指定 15 维空间中的点（记为 Q 空间）。(8.10) 可改写为 Q 参数的线性组合：}^{3} q_{jk$\mathrm{ACE}(X \to Y) = q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32} \tag{8.12}$ 应用 (8.6) 和 (8.7) 可写出从 Q 空间中的点到 P 空间中的点的线性变换：p_{00.0} = q_{00} + q_{01} + q_{10} + q_{11}，p_{00.1} = q_{00} + q_{01} + q_{20} + q_{21}，p_{01.0} = q_{20} + q_{22} + q_{30} + q_{32}，p_{01.1} = q_{10} + q_{12} + q_{30} + q_{32}，p_{10.0} = q_{02} + q_{03} + q_{12} + q_{13}，p_{10.1} = q_{02} + q_{03} + q_{22} + q_{23}，p_{11.0} = q_{21} + q_{23} + q_{31} + q_{33}，p_{11.1} = q_{11} + q_{13} + q_{31} + q_{33}；也可写为矩阵形式 p = Rq。给定 P 空间中的点 p，ACE(X → Y) 的严格下界可通过解如下线性规划问题确定：

极小化 q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}

约束为：∑{j=0}^{3} ∑。 (8.13)}^{3} q_{jk} = 1；Rq = p；q_{jk} ≥ 0，j, k ∈ {0,1,2,3

对此规模的优化问题，已可用方法推导出解的符号表达（Balke 1995），从而得到处理效应的下界：

\[ \mathrm{ACE}(X \to Y) \geq \max\begin{cases} p_{11.1} + p_{00.0} - 1 \\ p_{11.0} + p_{00.1} - 1 \\ p_{11.0} - p_{11.1} - p_{10.1} - p_{01.0} - p_{10.0} \\ p_{11.1} - p_{11.0} - p_{10.0} - p_{01.1} - p_{10.1} \\ -p_{01.1} - p_{10.1} \\ -p_{01.0} - p_{10.0} \\ p_{00.1} - p_{01.1} - p_{10.1} - p_{01.0} - p_{00.0} \\ p_{00.0} - p_{01.0} - p_{10.0} - p_{01.1} - p_{00.1} \end{cases} \tag{8.14a} \]

类似地，上界为

\[ \mathrm{ACE}(X \to Y) \leq \min\begin{cases} 1 - p_{01.1} - p_{10.0} \\ 1 - p_{01.0} - p_{10.1} \\ -p_{01.0} + p_{01.1} + p_{00.1} + p_{11.0} + p_{00.0} \\ -p_{01.1} + p_{11.1} + p_{00.1} + p_{01.0} + p_{00.0} \\ p_{11.1} - p_{00.1} \\ p_{11.0} - p_{00.0} \\ -p_{10.1} + p_{11.1} + p_{00.1} + p_{11.0} + p_{10.0} \\ -p_{10.0} + p_{11.0} + p_{00.0} + p_{11.1} + p_{10.1} \end{cases} \tag{8.14b} \]

也可以在相同线性约束下分别对 (8.8) 和 (8.9) 推导界，得到 P(y_1 \mid do(x_0)) 的上下界以及 P(y_1 \mid do(x_1)) 的上下界（原文 (8.15) 和 (8.16) 两组公式）。这些表达式给出关于所求量最紧的、无假设的界。

8.2.4 自然界（The Natural Bounds）

ACE(X → Y)（(8.4) 式）的表达式可由两个简单公式界定，每个由 (8.14a) 和 (8.14b) 的前两项组成（Robins 1989；Manski 1990；Pearl 1994a）：$\mathrm{ACE}(X \to Y) \geq P(y_1 \mid z_1) - P(y_1 \mid z_0) - P(y_1, x_0 \mid z_1) - P(y_0, x_1 \mid z_0) \tag{8.17}$

[ \mathrm{ACE}(X \to Y) \leq P(y_1 \mid z_1) - P(y_1 \mid z_0) + P(y_0, x_0 \mid z_1) + P(y_1, x_1 \mid z_0) ] 由于简洁且适用范围广，(8.17) 给出的界被称为"自然界"（Balke and Pearl 1997）。自然界保证：实际处理的因果效应不可能比"鼓励效应"P(y_1 \mid z_1) - P(y_1 \mid z_0) 更小（减去两个可测量量 P(y_1, x_0 \mid z_1) + P(y_0, x_1 \mid z_0)）；也不可能超过该鼓励效应（加上两个可测量量 P(y_0, x_0 \mid z_1) + P(y_1, x_1 \mid z_0)）。自然界的宽度，由不依从率 P(x_1 \mid z_0) + P(x_0 \mid z_1) 决定——这一点不出所料。

(8.14ab) 中严格界的宽度可以显著更窄。Balke (1995) 和 Pearl (1995b) 表明——即使在 50% 不依从条件下——这些界也可能塌缩为一点，从而允许对 ACE(X → Y) 作一致估计。这种情况发生在：(a) 在 z_0 和 z_1 上遵从分配的比例相同，且 (b) Y 与 Z 在至少一个处理臂 x 上完全相关（参 8.5 节表 8.1）。虽然比 (8.17) 的自然界复杂，(8.14ab) 的严格界仍便于评估——只要有 P(y, x \mid z) 八个单元格的频数数据。Balke (1995) 还证明：在可以安全假设"无反抗者"——即任何受试者都不会一贯地选择与分配相反的处理臂——时，自然界是最优的。脚注 4 说明：这里"无假设"其实是"假设透明"——不对受试者依从的决定因素作假设，但依赖 (i) 随机化分配与 (ii) 无副作用（如图 8.1 所示）。

注意：若响应 Y 连续，可把 y_1 和 y_0 分别关联到二元事件 Y ≥ t 和 Y < t，让 t 在 Y 的范围内连续变化。(8.15) 和 (8.16) 将给出处理效应分布 P(Y ≥ t \mid do(x)) 的完整界定。

8.2.5 处理对已治疗者的效应（ETT）（Effect of Treatment on the Treated (ETT)）

文献大多假设 ACE(X → Y) 是感兴趣的参数，因为 ACE(X → Y) 预测把处理统一（或随机）施加于全人口的效果。然而，若政策制定者关心的不是引入新处理政策，而是在当前激励制度下决定是否维持或终止现有方案，那么感兴趣的参数应该是"处理对已治疗者的效应"——即已治疗亚群体的平均反应，与这些受试者若未被治疗时的平均反应之差（Heckman 1992）。该参数的适当公式为 $\mathrm{ETT}(X \to Y) = P(Y_{x_1} = y_1 \mid x_1) - P(Y_{x_0} = y_1 \mid x_1) = \sum_u \big[P(y_1 \mid x_1, u) - P(y_1 \mid x_0, u)\big] P(u \mid x_1) \tag{8.18}$ 与 (8.4) 类似，只是把对 u 的期望替换为给定 X = x_1 的条件期望。

ETT(X → Y) 的分析表明：在无侵入条件下（即 P(x_1 \mid z_0) = 0，如大多数临床试验），ETT(X → Y) 可精确识别（Bloom 1984；Heckman and Robb 1986；Angrist and Imbens 1991）。一般情形下 ETT(X → Y) 的自然界可以用类似方法获得（Pearl 1995b），得到 $\mathrm{ETT}(X \to Y) \geq \frac{P(y_1 \mid z_1) - P(y_1 \mid z_0)}{P(x_1 \mid z_1)} - \frac{P(y_0, x_1 \mid z_0)}{P(x_1)}$

[ \mathrm{ETT}(X \to Y) \leq \frac{P(y_1 \mid z_1) - P(y_1 \mid z_0)}{P(x_1 \mid z_1)} + \frac{P(y_1, x_1 \mid z_0)}{P(x_1)} \tag{8.19}$ 严格界见 Balke (1995, p. 113)。显然，在处理只能通过被分配（即被鼓励）才能获得的情形下，P(x_1 \mid z_0) = 0 且 $\mathrm{ETT}(X \to Y) = \frac{P(y_1 \mid z_1) - P(y_1 \mid z_0)}{P(x_1 \mid z_1)} \tag{8.20} ] 与 ACE(X → Y) 不同，ETT(X → Y) 不是处理的内在属性，因为它随鼓励工具而变化。因此它的意义在于评估现有方案对其当前参与者的效力。

8.2.6 例子：消胆胺的效果（Example: The Effect of Cholestyramine）

用例子说明 ACE(X → Y) 的界如何提供因果效应的有意义信息。考虑 Lipid Research Clinics Coronary Primary Prevention Trial 数据（Program 1984），Efron and Feldman (1991) 分析了该数据中 337 名受试者的子集。受试者被随机分入两个大致等大的处理组：一组全部处方消胆胺（z_1），另一组处方安慰剂（z_0）。经过若干年治疗后，每个受试者的胆固醇水平被多次测量，取平均作为治疗后胆固醇水平（连续变量 CF）。每个受试者的依从性通过跟踪处方剂量的消耗量（连续量）确定。

为对该研究应用 (8.17) 的界，连续数据先用阈值化为代表处理分配（Z）、实际接受处理（X）和处理反应（Y）的二元变量。剂量消耗阈值选为最小消耗与最大消耗之间的中点附近；胆固醇水平降低的阈值设为 28 个单位。阈值化后，样本数据产生以下八个概率：P(y_0, x_0 \mid z_0) = 0.919，P(y_0, x_0 \mid z_1) = 0.315，P(y_0, x_1 \mid z_0) = 0.000，P(y_0, x_1 \mid z_1) = 0.139，P(y_1, x_0 \mid z_0) = 0.081，P(y_1, x_0 \mid z_1) = 0.073，P(y_1, x_1 \mid z_0) = 0.000，P(y_1, x_1 \mid z_1) = 0.473。

这些数据表示依从率 P(x_1 \mid z_1) = 0.139 + 0.473 = 0.61。用 P(z_1) = 0.50 计算的平均差异为 $P(y_1 \mid x_1) - P(y_1 \mid x_0) = \frac{0.473}{0.473 + 0.139} - \frac{0.073 + 0.081}{1 - 0.315 - 0.073} = 0.662$ 鼓励效应（意向治疗）为 $P(y_1 \mid z_1) - P(y_1 \mid z_0) = 0.073 + 0.473 - 0.081 = 0.465$ 根据 (8.17)，ACE(X → Y) 可由以下界定 $\mathrm{ETT}(X \to Y) \geq 0.465 - 0.073 - 0.000 = 0.392, \quad \mathrm{ETT}(X \to Y) \leq 0.465 + 0.315 - 0.000 = 0.780$ 这些界信息量很大：尽管 38.8% 的受试者偏离了处理方案，实验者可以肯定地说——若处理统一施加于全人口，则至少有 39.2% 的概率把胆固醇水平降低至少 28 个单位。"处理对已治疗者"的效应同样具有揭示性。因为 P(x_1 \mid z_0) = 0，使用 (8.20) 可精确计算 ETT(X → Y) = 0.465 / 0.610 = 0.762。换言之，坚持参加方案的那些受试者若未被治疗其状况会更差：处理可归功于让 76.2% 的受试者把胆固醇水平降低至少 28 个单位。

8.3 反事实与法律责任（COUNTERFACTUALS AND LEGAL RESPONSIBILITY）

评估反事实概率可以在某些法律案件中具有启发意义——原告主张被告的行为是其不幸的原因。Robins and Greenland (1989) 指出：缺乏对反事实的恰当处理，法院可能轻易作出不当裁决。考虑以下由 Balke and Pearl (1994a) 专门构造以凸显因果效应与因果归因差异的虚构案例。

PeptAid（抗酸药）的营销商在加州 Stress 市随机向 10% 的家庭邮寄了产品样品。在后续研究中，研究者确定每个个体是否收到了 PeptAid 样品、是否消费了 PeptAid、以及在接下来一个月是否发生了消化性溃疡。该情形的因果结构与图 8.1 给出的部分依从模型相同，其中 z_1 表示从营销商处收到 PeptAid，x_1 表示消费了 PeptAid，y_1 表示发生了消化性溃疡。数据给出分布：P(y_0, x_0 \mid z_0) = 0.32，P(y_0, x_0 \mid z_1) = 0.02，P(y_0, x_1 \mid z_0) = 0.32，P(y_0, x_1 \mid z_1) = 0.17，P(y_1, x_0 \mid z_0) = 0.04，P(y_1, x_0 \mid z_1) = 0.67，P(y_1, x_1 \mid z_0) = 0.32，P(y_1, x_1 \mid z_1) = 0.14。这些数据显示消费 PeptAid 与发生消化性溃疡之间高度相关：P(y_1 \mid x_1) = 0.50，P(y_1 \mid x_0) = 0.26。意向治疗分析还显示收到 PeptAid 样品的个体发生消化性溃疡的概率高出 45%：P(y_1 \mid z_1) = 0.81，P(y_1 \mid z_0) = 0.36。

原告（Smith 先生）听说该研究后，对营销商和 PeptAid 生产者同时起诉。原告律师对生产者抗辩：消费 PeptAid 触发了其当事人的溃疡及相关医疗费用。对营销商抗辩：若不是营销商分发产品样品，其当事人不会发生溃疡。被告律师代 PeptAid 生产者和营销商一并抗辩：消费 PeptAid 与溃疡之间的高相关性源于一个共同因素——溃疡前的不适；有胃肠不适的个体既更可能使用 PeptAid，也更可能发展出胃溃疡。为支持其当事人主张，被告律师引入专家分析，表明消费 PeptAid 平均而言至少把个体发生溃疡的概率降低 15%。

应用 (8.14a,b) 得到 PeptAid 消费对消化性溃疡的平均因果效应的界：-0.23 ≤ ETT(X → Y) ≤ -0.15；这证明 PeptAid 对全人口是有益的。原告律师则强调对全人口的平均处理效应与由特定亚群体（即那些像其当事人一样收到 PeptAid 样品、消费了 PeptAid 然后发生溃疡的个体）的平均处理效应之间的区别。分析人口数据表明：若 PeptAid 未被分发，Smith 先生发生溃疡的概率至多为 7%——与任何诸如溃疡前疼痛等混杂因素无关。类似地，若 Smith 先生未消费 PeptAid，他发生溃疡的概率也至多为 7%。

针对营销商的不利证据通过评估以下反事实概率的界获得：在原告实际收到 PeptAid 样品、消费了 PeptAid、并发生溃疡的条件下，若他未收到 PeptAid 样品，他会发生消化性溃疡的概率。该概率可以用参数 q_{13}、q_{31}、q_{33} 写为 $P(Y_{z_0} = y_1 \mid y_1, x_1, z_1) = \frac{P(r_z = 1)(q_{13} + q_{31} + q_{33})}{P(y_1, x_1, z_1)}$ 因为只有组合 {r_x = 1, r_y = 3}、{r_x = 3, r_y = 1} 和 {r_x = 3, r_y = 3} 同时满足联合事件 {X = x_1, Y = y_1, Y_{z_0} = y_1}（参 (8.6)、(8.7) 和 (8.11)）。因此 $P(Y_{z_0} = y_1 \mid y_1, x_1, z_1) = \frac{q_{13} + q_{31} + q_{33}}{P(y_1, x_1 \mid z_1)}$ 该表达式关于 q 参数是线性的，可以用线性规划得到界 $P(Y_{z_0} = y_1 \mid z_1, x_1, y_1) \geq \frac{1}{p_{11.1}} \max \begin{cases} 0 \\ p_{11.1} - p_{00.0} \\ p_{11.0} - p_{00.1} - p_{10.1} \\ p_{10.0} - p_{01.1} - p_{10.1} \end{cases}$

[ P(Y_{z_0} = y_1 \mid z_1, x_1, y_1) \leq \frac{1}{p_{11.1}} \min \begin{cases} p_{10.0} + p_{11.0} \ 1 - p_{00.0} - p_{10.1} \end{cases}$ 类似地，针对 PeptAid 生产者的不利证据通过评估以下反事实概率的界得到 $P(Y_{x_0} = y_1 \mid y_1, x_1, z_1) = \frac{q_{13} + q_{33}}{p_{11.1}}$ 对分子作极小和极大（受 (8.13) 约束），得到 $P(Y_{x_0} = y_1 \mid y_1, x_1, z_1) \geq \frac{1}{p_{11.1}} \max \begin{cases} 0 \\ p_{11.1} - p_{00.0} - p_{11.0} \\ p_{10.0} - p_{01.1} - p_{10.1} \end{cases}$ $P(Y_{x_0} = y_1 \mid y_1, x_1, z_1) \leq \frac{1}{p_{11.1}} \min \begin{cases} p_{10.0} + p_{11.0} \ 1 - p_{00.0} - p_{10.1} \end{cases} ] 把观察分布 P(y, x \mid z) 代入这些公式，得到以下界：0.93 ≤ P(Y_{z_0} = y_0 \mid z_1, x_1, y_1) ≤ 1.00，0.93 ≤ P(Y_{x_0} = y_0 \mid z_1, x_1, y_1) ≤ 1.00。因此，原告类别中至少 93% 的人若未被鼓励服用 PeptAid（z_0）或未服用 PeptAid（x_0），就不会发生溃疡。这强力支持原告关于自己受到营销商与生产者行为和产品不利影响的主张。第 9 章将延续对具体事件因果归因的分析，并建立从实验数据和非实验数据识别正确归因概率的条件。

8.4 工具变量的检验（A TEST FOR INSTRUMENTS）

8.2 节定义的不完美实验模型建立在两条假设之上：Z 被随机化、Z 对 Y 无副作用。这两条假设蕴含 Z 与 U 独立——经济学家称之为"外生性"——并使 Z 满足工具变量的资格（参 5.4.3 和 7.4.5 节），相对于 X 与 Y 的关系。长期以来，实验上验证某变量 Z 是否外生或是否为工具变量被认为是不可能的（Imbens and Angrist 1994），因为定义涉及不可观察的因素（即"扰动"），如 U 所代表的那样。脚注 6 说明：经济学家（Wu 1973）发展的检验只是比较多组工具得到的估计，并在出现差异时也无法客观指出哪个估计有误。外生性概念和因果概念一样，长期被视为一种主观建模判断的产物，免于非实验数据的审查。

(8.14a,b) 给出的界讲述了一个不同的故事。尽管性质上模糊，外生性可以有一个经验检验。该检验不能保证发现所有外生性的违反，但在某些情形下能筛除很糟的"自称工具变量"。通过要求 (8.14b) 中每个上界高于 (8.14a) 中对应的下界，得到以下关于观察分布的可检验约束 $P(y_0, x_0 \mid z_0) - P(y_1, x_0 \mid z_1) \leq 1, \quad P(y_0, x_1 \mid z_0) - P(y_1, x_1 \mid z_1) \leq 1,$

[ P(y_1, x_0 \mid z_0) - P(y_0, x_0 \mid z_1) \leq 1, \quad P(y_1, x_1 \mid z_0) - P(y_0, x_1 \mid z_1) \leq 1 \tag{8.21} ] 若任一不等式被违反，研究者可断定模型基础假设中至少有一条也被违反。若分配是仔细随机化的，则任何违反必然归因于分配过程对受试者反应的某种直接影响（如创伤性经历）。另一方面，若 Z 对 Y 的直接效应能被消除——例如通过有效使用安慰剂——则任何观察到的不等式违反都可安全归因于 Z 与 U 之间的伪相关：即分配偏差，从而丧失外生性。Richardson and Robins (2010) 讨论了这些检验的功效。

8.4.1 工具不等式（The Instrumental Inequality）

(8.21) 的不等式推广到多值变量时，形式为 $\max_x \Big[\max_y P(y, x \mid z) - \min_z\Big] \leq 1 \tag{8.22}$ 称为工具不等式。证明见 Pearl (1995b,c)。把工具不等式推广到 Z 或 Y 连续的情形无特殊困难：若 f(y \mid x, z) 是 Y 给定 X 和 Z 的条件密度函数，则不等式变为 $\Big[1 - \max_z \int f(y \mid x, z) P(x \mid z)\,dy\Big] \leq 1 \tag{8.23}$ 然而，过渡到连续 X 标志着行为的剧变，并使 Pearl (1995c) 猜想图 8.1 的结构对观察密度不施加任何约束。该猜想由 Bonet (2001) 证明。从 (8.21) 可以看到：当控制工具 Z 能在处理 X 保持不变的情况下引起响应变量 Y 的显著变化时，工具不等式被违反。虽然这种变化原则上可以由 U、X、Y 之间的强相关解释（因为 X 并未把 Z 与 Y 屏蔽开），工具不等式对这种变化幅度设了限制。

工具不等式与量子物理中 Bell 不等式（Suppes 1988；Cushing and McMullin 1989）的相似并非偶然——两者都划定了一类观察相关性，这类相关性无法通过假设潜在共同原因来解释。从某种意义上说，工具不等式可视为 Bell 不等式在相关可观测量 X 和 Y 之间允许直接因果连接情形下的推广。

若愿意对受试者行为作额外假设，工具不等式可以显著加强——例如假设任何个体都不会被鼓励型工具劝退（数学上为：对所有 u，有 P(x_1 \mid z_1, u) ≥ P(x_1 \mid z_0, u)）。该假设等价于总体中无反抗者，即没有受试者会一贯选择与分配相反的处理。在该假设下，(8.21) 的不等式可以加强（Balke and Pearl 1997）得到 $P(y, x_1 \mid z_1) \geq P(y, x_1 \mid z_0), \quad P(y, x_0 \mid z_0) \geq P(y, x_0 \mid z_1) \tag{8.24}$ 对所有 y ∈ {y_0, y_1}。这些不等式的违反现在意味着选择偏差或 Z 对 Y 的直接效应或反抗者的存在。

8.5 用贝叶斯方法处理不依从（A BAYESIAN APPROACH TO NONCOMPLIANCE）

本节给出从有限样本估计因果效应和反事实概率、并结合关于总体的先验知识的一般方法。该方法由 Chickering and Pearl (1997) 发展，适用性在贝叶斯框架内——其中任何未知统计参数都可以赋予先验概率，估计该参数相当于计算其后验分布（以样本数据为条件）。在当前问题中，参数是 P(r_x, r_y)（即每个依从-响应亚群体的人口比例 v_R），从中可推出 ACE(X → Y)。核心思想是：v_R 是潜在的（虽未知）可测量物理量，因此可以接受先验概率——该概率编码我们对这一量的不确定性。本节通过吉布斯采样（Gibbs sampling）近似得到 ACE(X → Y) 的后验分布，并以 8.2.6 节的 Lipid 临床数据和 Sommer et al. (1986) 的维生素 A 临床数据为例展示。该方法的另一项能力是回答对具有特定特征个体的反事实查询——以"Joe 是否本应服用该药"的查询为例。

8.5.1 贝叶斯方法与吉布斯采样（Bayesian Methods and Gibbs Sampling）

本节描述一种从有限样本估计因果效应和反事实概率、并结合关于总体的先验知识的一般方法。该方法由 Chickering and Pearl (1997) 发展，适用性在贝叶斯框架内——其中 (i) 任何未知统计参数都可以赋予先验概率，(ii) 估计该参数相当于计算其后验分布（以样本数据为条件）。在当前问题中，参数是 P(r_x, r_y)（或简称 P(r)），从中可推出 ACE(X → Y)。脚注 7 说明：Imbens and Rubin (1997) 给出了类似方法但缺乏图形视角。

若把 P(r) 不视为概率而视为总体中具有由 R = r 给定响应特征的个体所占比例 v_r，则对这种量赋予概率符合贝叶斯分析的标准哲学：v_r 是潜在的（虽未知）可测量物理量，因此可以接受先验概率——该概率编码我们对这一量的不确定性。设有 m 名受试者。用 z^i, x^i, y^i 表示受试者 i 的 Z、X、Y 观察值；用 r^i 表示受试者 i 的（未观察到的）依从（r_x）和响应（r_y）组合；用 x^i 表示三元组 {z^i, x^i, y^i}。给定观察数据 x 和关于未知比例 v_R 的先验分布，问题是推导 ACE(X → Y) 的后验分布。v_R 和 ACE(X → Y) 的后验分布可以用图 8.4 所示的图模型推出，该模型显式表示在 (x, v_R, ACE(X → Y)) 联合（贝叶斯）分布中成立的独立性。该模型可以理解为响应变量模型（图 8.3）的 m 次实现，每个三元组对应一个，由未知比例 v_R = (v_{r_1}, v_{r_2}, …, v_{r_{16}}) 节点连接。该模型显式表示如下假设：在给定比例 v_R 时，受试者属于任一 16 个依从-响应亚群体的概率不依赖于其他受试者的依从和响应行为。由 (8.10)，ACE(X → Y) 是 v_R 的确定性函数，因此 ACE(X → Y) 在这些比例已知后与域中所有其他变量独立。

原则上，估计 ACE(X → Y) 化为完全规定贝叶斯网络中变量后验概率的标准推断任务。（图技术简要见 1.2.4 节。）在很多情形下，图所蕴含的独立性可被利用以使推断任务有效。但因为 r^i 永远不被观察，即使有上述独立性，本模型中 ACE(X → Y) 后验分布的推导仍不可处理。为获得 ACE(X → Y) 后验分布的估计，可以使用称为吉布斯采样的近似技术（Robert and Casella 1999）。Pearl (1988b, p. 210) 描述了该技术的一个图形版本，称为"随机模拟"；应用于图 8.4 的细节见 Chickering and Pearl (1997)。这里给出典型结果，以直方图形式展示该技术对因果推断问题的一般适用性。

8.5.2 样本量与先验分布的影响（The Effects of Sample Size and Prior Distribution）

该方法接受两类输入：(1) 观察数据 x，表现为 8 种可能的 {z, x, y} 实现中每种被观察到的频数；(2) 关于未知比例 v_R 的 Dirichlet 先验，用 16 个参数表达。系统输出 ACE(X → Y) 的后验分布，以直方图形式呈现。为展示先验分布对输出的影响，所有结果都使用两种先验。第一种是 v_R 上 16 维向量的平坦（均匀）分布，常用于表达对域的无知。第二种先验是偏斜的，表示受试者依从和响应特征之间的强依赖。图 8.5 展示了这两种先验分布（无任何数据时）所诱导的 ACE(X → Y) 分布。可以看到图 8.5(b) 的偏斜先验几乎把全部权重放在 ACE(X → Y) 的负值上。

为说明样本量增大如何抹去先验分布的影响，把该方法应用于从分布 P(x, y \mid z) 抽取的模拟数据——对该分布 ACE 已知可识别。这种分布如表 8.1 所示。对该分布，(8.14a,b) 的上下界塌缩为一点：ACE(X → Y) = 0.55。图 8.6 展示吉布斯采样器应用于从表 8.1 分布抽取的不同大小数据集的结果，分别使用平坦先验和偏斜先验。如所预期，随样本量增大，后验分布越来越集中于 0.55 附近。一般而言，由于偏斜先验的 ACE(X → Y) 集中位置比均匀先验离 0.55 更远，所以需要更多样本后验分布才收敛到 0.55。

8.5.3 从不完美依从的临床数据获取因果效应（Causal Effects from Clinical Data with Imperfect Compliance）

本节分析两个在不完美依从条件下获得的临床数据集。首先考虑 8.2.6 节描述的 Lipid Research Clinics Coronary Primary Prevention 数据。该数据集（阈值化后）如表 8.2 所示。使用大样本假设，(8.14a,b) 给出 0.39 ≤ ACE(X → Y) ≤ 0.78。图 8.7 展示基于这些数据的 ACE(X → Y) 后验密度。值得注意的是，即使数据集中只有 337 个案例，两个后验分布都高度集中在大样本界 0.39 和 0.78 之间。

第二个例子是 Sommer et al. (1986) 描述的实验，旨在测定维生素 A 补充对儿童死亡率的影响。实验中苏门答腊北部的 450 个村庄被随机分配参与维生素 A 补充方案一年或作为对照组一年。处理组中的儿童接受两次大剂量维生素 A（x_1），对照组的儿童不接受处理（x_0）。一年期满后，统计两组的死亡数 y_0。该研究的结果也列在表 8.2 中。在大样本假设下，(8.14a,b) 的不等式给出界 -0.19 ≤ ACE(X → Y) ≤ 0.01。图 8.8 展示给定数据后两种先验下的 ACE(X → Y) 后验密度。有趣的是，对该研究，先验分布的选择对后验有显著影响。这表明若临床医生对先验不太自信，则应执行敏感性分析。在这些情形下，渐近界比贝叶斯估计更有信息量，吉布斯采样的主要作用是给出关于这些界边界锐度的指示。

8.5.4 单事件因果的贝叶斯估计（Bayesian Estimate of Single-Event Causation）

除评估因果效应外，上述贝叶斯方法只需少量修改便能回答各种关于具有特定特征个体的反事实查询。此类查询在 8.3 节的大样本假设下被分析并界定。本节演示以下查询的贝叶斯分析：Joe 在以下条件下服用消胆胺胆固醇读数会改善的概率是多少：(1) Joe 在 Lipid 研究的对照组；(2) Joe 按处方服用了安慰剂；(3) Joe 的胆固醇水平未改善。该查询可以通过在与图 8.4 完全相同的模型上运行吉布斯采样回答，区别仅在于把函数 ACE(X → Y)（(8.10) 式）替换为代表查询的另一个关于 v_R 的函数。若 Joe 在对照组并服用了安慰剂，则他要么是遵从者要么是永不接受者。又因为 Joe 的胆固醇水平未改善，他的响应行为要么是永不康复要么是被帮助。因此他必属于以下四个依从-响应亚群体之一 {(r_x = 0, r_y = 0), (r_x = 0, r_y = 1), (r_x = 1, r_y = 0), (r_x = 1, r_y = 1)}。Joe 若服用消胆胺会改善，当且仅当他的响应行为是被帮助（r_y = 1）。于是所关心的查询由函数 $f(v_R) = \frac{v_{01} + v_{11}}{v_{01} + v_{02} + v_{11} + v_{12}}$ 表达。图 8.9(a) 和 (b) 展示分别从平坦先验和偏斜先验推出的 f(v_R) 先验分布。图 8.9(c) 和 (d) 展示使用 Lipid 数据、平坦先验和偏斜先验得到的后验分布 P(f(v_R) \mid x)。作为参考，大样本假设下计算的界为 0.51 ≤ f(v_R \mid x) ≤ 0.86。因此，尽管处理组有 39% 的不依从、尽管仅有 337 名受试者，该研究强烈支持以下结论——给定 Joe 的特定历史，他本应服用该药。该结论对两种先验都成立。

8.6 结论（CONCLUSION）

本章发展了应对临床实验中主要问题之一的因果分析技术：在不完美依从条件下评估处理效力。完全基于意向治疗分析或工具变量公式的估计可能具有误导性，甚至可能完全落在理论界之外。本章建立的通用公式为政策分析提供与工具无关的保证，并且应当使分析师能确定强制依从的努力能在多大程度上提高总体处理效力。

间接实验和工具变量的意义不局限于涉及人类受试者的研究。当我们想要评估其因果效应的变量不能直接操纵、但能通过间接手段部分影响时，就会出现与不完美依从等价的实验条件。典型应用包括诊断持续过程的故障——必须用间接手段识别故障行为的来源，因为直接操纵疑似来源在物理上不可能或代价过高。

从方法论看，本章的讯息是：即使在因果量不可识别的情形下，对域内因果关系结构的合理假设可以被利用来产生关于这些关系强度的有用定量信息。一旦把这些假设用图形式阐明，并用典型划分重新编码，它们可以提交给代数方法，产生关于目标量有用的界。典型划分还允许我们在结构假设之外补充对所研究总体的先验信念，并借助吉布斯采样技术促进目标量的贝叶斯估计。

本章个人批注

本章是 Pearl 因果方法论在"实验不完美"这一实际困境下的回应：把第 3 章识别、第 5 章工具变量、第 7 章反事实三股线拧到一起。最值得注意的是第 8.3 节 PeptAid 案例——它把抽象的因果效应界推到了"至少 93% 的原告类别者若未消费就不会发病"这种具体法律语言。这一节的力量在于它揭示了一个反直觉的事实：平均因果效应（ACE）对原告不利，但反事实条件概率 Y_{z_0} = y_0 对原告极端有利。同一份数据可以支持两种几乎相反的论断，关键在于问的是"对总体的政策效应"还是"对具体个体的归因"。Pearl 用这一案例的意图不仅是举例，更是为第 9 章"单事件因果概率"做铺垫——指出面向个体的反事实查询与面向总体的因果效应之间的鸿沟。

方法论上，第 8.4 节"工具不等式"是本章我最欣赏的一处。它把一个长期被认为"无法检验"的概念（外生性）转化为四个可经验证的不等式 (8.21)，并且显式地指出与 Bell 不等式的结构相似——这是 Pearl 一贯的把统计依赖结构对应到潜在因果结构的思路。第 8.2.4 节也漂亮：自然界的宽度就是依从失败率，这是一个干净可解释的退化方向。唯一的遗憾是第 8.5.4 节"Joe"这个例子被压缩得太短了——f(v_R) 的公式一眼看过去容易混淆分母为什么是 v_{01} + v_{02} + v_{11} + v_{12}；我重读一遍才反应过来这是 Joe 所属的四个亚群体的总权重。需要更明示"分母 = Joe 所属亚群体的总权重、分子 = 其中会被帮助的两类"。

与上下章的衔接（一段话）

本章位于 Pearl 全书的中间偏后位置，紧接第 7 章"基于结构的反事实逻辑"——后者给出了反事实语言的形式化（Y_{x}(u)），本章则把这一语言应用于一个反事实"自然登场"的领域：不完美实验下的因果识别与归因。从全书结构看，本章上承第 3.5 节（已指出部分依从下 ACE 不可识别）和第 5.4.3 节（工具变量定义）和第 7.4.5 节（外生性的反事实/图定义），把这三处分散的工具汇聚成一套可计算的代数程序（典型划分 → 线性规划 → 贝叶斯估计）。下启第 9 章"因果概率的解释与识别"——后者专门讨论单事件的因果归因（即"Joe 的溃疡是否由 PeptAid 引起"的概率），而本章 8.3 节和 8.5.4 节已经预演了这种个体层查询，并把界和后验摆上桌面作为引子。Pearl 把本章放在反事实语言（第 7 章）之后、单事件因果（第 9 章）之前，恰好形成"理论语言 → 实验应用 → 事件归因"的递进。