第八章：使用工具变量约束因果效应

章节概述

第八章系统性地探讨了在随机化实验存在不完全依从（imperfect compliance）情况下的因果推断问题。当研究对象可以自主选择是否接受被分配的治疗时，传统的"意图治疗分析"（Intent-to-Treat）只能估计分配效应（assignment effect），而非真实的治疗效应（treatment effect）。Pearl在本章中证明了，在仅假设工具变量存在（即随机分配Z仅通过影响实际治疗X来影响结果Y，且Z与U独立）的条件下，可以为平均因果效应（ACE）提供无假设的上下界估计。

本章首先建立了部分依从性场景的图形模型框架，利用有限状态响应变量（canonical partition）将连续潜变量U映射为16种等价类，从而将复杂的约束优化问题转化为线性规划问题。通过这种方法，章节推导出了自然 bounds（natural bounds）和 sharp bounds 两种边界估计，并进一步将分析扩展到"治疗对已治疗者的效应"（ETT）、反事实推断、法律责任判定、工具变量检验以及贝叶斯方法等应用场景。

关键问题与研究动机

8.1.1 不完美实验与间接实验

传统随机对照试验（RCT）要求严格控制实验条件，将受试者随机分配至不同组别，并以各组间的均值差异作为治疗效果的度量。然而，实际研究中常出现以下三类偏离理想实验的情况：

第一，完美控制难以实现或确认。 例如，经历药物不良反应的受试者可能自行减少剂量；晚期疾病患者可能从其他途径获取药物。这种不完全依从使实验变得间接，并在结论中引入偏倚。

第二，拒绝给予对照组已知有效治疗存在伦理和法律问题。 例如在艾滋病研究中，使用安慰剂程序在伦理上难以辩护。

第三，随机化本身可能影响参与意愿和行为。 符合资格的对象可能因发现学校刻意随机化其录取标准而不愿申请；受试者对药物试验的参与意愿可能低于非实验性研究。

研究者逐渐认识到，强制随机化可能削弱实验证据的可靠性，在人类受试者实验中纳入自我选择元素有时是必要且合理的。

8.1.2 核心问题

核心问题：间接随机化（工具变量）能否提供关于程序内在价值的信息——即如果程序被统一强制应用于总体时的因果效应度量？

关键假设： 1. 对于任何给定个体，激励工具影响该个体选择的治疗，但不影响该个体对所选治疗的响应方式（工具变量定义） 2. 受试者对治疗的反应相互独立

在仅依赖这两个假设的条件下，章节证明因果效应虽不可精确识别（non-identifiable），但可以以边界（bounds）形式被约束——即保证因果效应高于某个可测量量、低于另一个可测量量。

8.1.3 意图治疗分析的局限性

"意图治疗"（ITT）分析比较对照组和治疗组时，不考虑实际是否接受了治疗。ITT分析得到的是分配效应（assignment effect）而非治疗效应。Angrist等人的校正公式将ITT测量值除以依从者的比例，但这仅对"响应者"亚群体有效，且该亚群体依赖于特定工具，无法推广到涉及整个人口的政策决策。

主要公式与推导

8.2.1 问题形式化：约束优化

建立图形模型：$Z$（分配）、$X$（实际治疗）、$Y$（结果）为观测到的二值变量，$U$为影响响应和治疗选择的潜变量。

分解公式（8.1）： $$P(y, x, z, u) = P(y | x, u) P(x | z, u) P(z) P(u)$$

边际分布（8.2）： $$P(y, x | z) = \sum_u P(y | x, u) P(x | z, u) P(u)$$

do算子公式（8.3）： $$P(y | do(x)) = \sum_u P(y | x, u) P(u)$$

平均因果效应ACE（8.4）： $$ACE(X \rightarrow Y) = P(y_1 | do(x_1)) - P(y_1 | do(x_0)) = \sum_u [P(y_1 | x_1, u) - P(y_1 | x_0, u)] P(u)$$

任务：在已知 $P(y, x | z_0)$ 和 $P(y, x | z_1)$ 的条件下，通过约束优化找到 $ACE$ 的最大和最小值。

8.2.2 规范划分：有限响应变量的演化

对于二值变量 $Y$ 和 $X$，关系 $y = f(x, u)$ 只能是四种函数之一（公式8.5）： $$f_0: y = 0, \quad f_1: y = x, \quad f_2: y = \lnot x, \quad f_3: y = 1$$

因此，$U$ 的域被划分为四个等价类，可以用四状态变量 $R_y$ 表示。类似地，$X$ 与 $Z$ 的关系也可划分为四种compliance行为： - $r_x = 0$：never-taker（从不接受治疗） - $r_x = 1$：complier（依从者） - $r_x = 2$：defier（反向依从者） - $r_x = 3$：always-taker（总是接受治疗）

潜在结果映射（8.8-8.10）： $$P(y_1 | do(x_1)) = P(r_y = 1) + P(r_y = 3)$$ $$P(y_1 | do(x_0)) = P(r_y = 2) + P(r_y = 3)$$ $$ACE(X \rightarrow Y) = P(r_y = 1) - P(r_y = 2)$$

8.2.3 线性规划公式

定义8个观测概率参数（公式8.33-8.36）： $$p_{00.0} = P(y_0, x_0 | z_0), \quad p_{00.1} = P(y_0, x_0 | z_1), \ldots$$

和16个潜在类别参数（8.11）： $$q_{jk} = P(r_x = j, r_y = k), \quad j,k \in \{0,1,2,3\}$$

ACE线性表示（8.12）： $$ACE(X \rightarrow Y) = q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}$$

线性规划约束（8.13）： $$\min \quad q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}$$ $$\text{s.t.} \quad \sum_{j,k} q_{jk} = 1, \quad \mathbf{R} \mathbf{q} = \mathbf{p}, \quad q_{jk} \geq 0$$

8.2.4 Sharp Bounds（8.14a, 8.14b）

通过线性规划求得的下界： $$ACE(X \rightarrow Y) \geq \max \left\{ \frac{p_{11.1} + p_{00.0} - 1}{p_{11.0} + p_{00.1}}, \frac{p_{11.0} + p_{11.1} + p_{10.1} + p_{01.0} - p_{10.0}}{-p_{01.1} - p_{10.1}}, \frac{p_{11.1} - p_{01.0} - p_{10.0}}{-p_{01.1} - p_{10.1}}, \ldots \right\}$$

上界类似。

8.2.5 自然Bounds（8.17）

自然bounds的宽度由不依从率 $P(x_1 | z_0) + P(x_0 | z_1)$ 给出。

8.2.6 ETT公式（8.18-8.20）

\[ETT(X \rightarrow Y) = P(Y_{x1} = y_1 | x_1) - P(Y_{x0} = y_1 | x_1) = \sum_u [P(y_1 | x_1, u) - P(y_1 | x_0, u)] P(u | x_1)\]

在无侵入条件下（$P(x_1 | z_0) = 0$）： $$ETT(X \rightarrow Y) = \frac{P(y_1 | z_1) - P(y_1 | z_0)}{P(x_1 | z_1)}$$

关键算法与建模方法

8.2.2 规范划分方法（Canonical Partition）

核心思想：将连续的潜变量空间 $U$ 替换为有限状态的变量，使得模型在所有对 $Z, X, Y$ 的观测和操作方面等价。

16等价类：$Z, X, Y$ 均为二值变量时，$U$ 的状态空间划分为16个等价类，每个等价类指定两个函数映射：$Z \rightarrow X$ 和 $X \rightarrow Y$。用两个四值变量 $(R_x, R_y)$ 的联合空间表示。

响应类型定义： - Compliance行为（$R_x$）：never-taker, complier, defier, always-taker - Response行为（$R_y$）：never-recover, helped, hurt, always-recover

8.2.3 线性规划方法

变量替换：将连续函数 $P(u), P(y_1|x_0,u), P(y_1|x_1,u), P(x_1|z_0,u), P(x_1|z_1,u)$ 替换为离散的16个 $q_{jk}$ 参数。

约束转化： 1. 概率归一化约束：$\sum_{j,k} q_{jk} = 1$ 2. 线性映射约束：$\mathbf{p} = \mathbf{R} \mathbf{q}$（将潜在参数映射到观测概率） 3. 非负约束：$q_{jk} \geq 0$

求解：使用线性规划的标准算法（如单纯形法）求解优化问题，得到sharp bounds。

8.4 工具变量检验

工具不等式（8.22）： $$\max_x \max_y \sum_z P(y, x | z) \leq 1$$

扩展到连续变量（8.23）： $$\int \max_z f(y | x, z) P(x | z) dy \leq 1$$

8.5 贝叶斯方法：Gibbs采样

建模框架：将 $P(r_x, r_y)$ 视为总体中各类别个体的潜在分数 $\nu_r$，赋予Dirichlet先验分布。

图形模型（图8.4）：表示在变量 $\{X_i\}, \{R_i\}, v_R, ACE(X \rightarrow Y)$ 上的独立性。

Gibbs采样算法： 1. 初始化潜在类别分配 2. 迭代采样：给定观测数据和当前其他潜在变量，采样每个个体的 $(r_x^i, r_y^i)$ 3. 给定所有 $r^i$，更新 $v_R$ 的Dirichlet后验 4. 从更新后的 $v_R$ 计算 $ACE$ 值 5. 重复直到收敛，得到 $ACE$ 的后验分布

先验选择： - Flat prior（均匀分布）：表达对领域的无知 - Skewed prior（偏斜先验）：表达compliance和response特征之间的强依赖

主要结论

8.2 节：Bounds的存在性与性质

Bounds的存在性：即使在无限样本条件下，在仅有工具变量假设（无额外建模假设）的条件下，平均因果效应ACE不可精确识别，但可以用无假设的上下界约束。
Sharp bounds：通过线性规划得到的bounds是"最紧"（tightest possible）的，在数学上不可再改进。
自然bounds：比sharp bounds更简单、适用范围更广，但通常比sharp bounds更宽松。宽度由不依从率 $P(x_1|z_0) + P(x_0|z_1)$ 决定。
特殊情况：在50%不依从率下，bounds可能收缩为单点，从而实现ACE的一致估计。这发生在：（a）两个分配组中依从者的比例相同，且（b）$Y$和$Z$在至少一个治疗臂$x$中完全相关。
连续结果变量：对于连续$Y$，令$y_1$表示$Y > t$，$y_0$表示$Y \leq t$，让$t$在$Y$的范围内连续变化，公式（8.15）和（8.16）提供整个治疗效应分布的bounds。

8.2.5节：ETT的可识别性

在无侵入条件（$P(x_1|z_0) = 0$）下，ETT可精确识别，公式为 $ITT / P(x_1|z_1)$。
ETT不是治疗的内在属性，随激励工具变化。
ETT的bounds在一般条件下仍可通过类似方法获得。

8.3节：反事实与法律责任

关键洞察：平均治疗效应（ATE）与特定事件因果归属（causal attribution）之间的区别。

案例分析（PeptAid例子）： - 从人口层面：PeptAid对总体有益（bounds: $-0.23 \leq ETT \leq -0.15$） - 从个体层面（原告类别）：至少93%的人如果没有被鼓励服用PeptAid就不会得溃疡

法律意义：在特定反事实查询中，即使总体效应为负，对特定个体的因果归因仍可能成立。

8.4节：工具变量的可检验性

关键发现：工具变量的外生性假设在传统上被认为不可检验，但bounds理论揭示了可检验的不等式约束。
工具不等式：任何满足工具变量假设的分布必须满足 $\max_x \max_y \sum_z P(y,x|z) \leq 1$。
违反解释：如果精心随机化的分配违反了这些不等式，必须归因于分配过程对受试者响应的直接影响（如创伤性体验）；如果可以直接效应可被消除，则违反归因于assignment bias和外生性丧失。
与量子力学的联系：工具不等式与Bell不等式的相似性不是巧合——两者都划定了一类观察到的相关性，这类相关性不能通过假设潜 Common causes 来解释。

8.5节：贝叶斯方法

后验分布：Gibbs采样提供ACE的完整后验分布，而非仅仅是bounds。
先验影响：随着样本量增加，不同先验的后验分布都收敛到真实值。对于小样本，先验选择有显著影响。
临床应用：
Lipid研究（n=337）：bounds为$0.39 \leq ACE \leq 0.78$，即使小样本下后验分布也高度集中于该区间
Vitamin A研究：bounds为$-0.19 \leq ACE \leq 0.01$，对小样本敏感，需要进行敏感性分析
单事件因果估计：Gibbs采样可用于估计特定个体的反事实概率（如"Joe如果服用了药，他的胆固醇会改善吗？"）。

公式汇总表

编号	公式名称	公式内容	应用场景
(8.1)	联合分解	$P(y,x,z,u) = P(y	x,u)P(x
(8.2)	边际分布	$P(y,x	z) = \sum_u P(y
(8.3)	do算子	$P(y	do(x)) = \sum_u P(y
(8.4)	ACE定义	$ACE = \sum_u [P(y_1	x_1,u) - P(y_1
(8.8)-(8.10)	响应映射	$P(y_1	do(x_1)) = P(r_y=1)+P(r_y=3)$ 等
(8.12)	ACE线性表示	$ACE = q_{01}+q_{11}+q_{21}+q_{31}-q_{02}-q_{12}-q_{22}-q_{32}$	线性规划目标函数
(8.14a,b)	Sharp bounds	见公式详情	ACE的最紧边界
(8.17)	自然bounds	$ACE \geq ITT - P(y_1,x_0	z_1) - P(y_0,x_1
(8.18)	ETT定义	$ETT = P(Y_{x1}=y_1	x_1) - P(Y_{x0}=y_1
(8.20)	ETT识别	$ETT = ITT / P(x_1	z_1)$（无侵入条件）
(8.21)	可检验不等式	$P(y_0,x_0	z_0)+P(y_1,x_0
(8.22)	工具不等式	$\max_x \max_y \sum_z P(y,x	z) \leq 1$

挑战与开放问题

8.6.1 理论挑战

连续治疗变量的边界：

Pearl（1995c）猜想：图8.1的结构对连续$X$的观测密度不施加任何约束。Bonet（2001）证明了这一猜想。这意味着当$X$为连续变量时，工具变量方法可能完全不提供关于因果效应的信息。

Sharp bounds的计算复杂性：

对于高维或多值变量，线性规划问题的规模（状态数指数增长）可能变得不可处理。需要发展更高效的算法或近似方法。

部分依从下的ATE识别条件：

何种条件下，即使存在不完美依从，ACE仍可被精确识别？章节提到当满足两个特殊条件时bounds会收缩为单点，但更一般的识别条件尚需进一步研究。

8.6.2 方法论挑战

样本变异性：

大样本假设下推导的bounds没有考虑有限样本的变异性。实际应用中需要为bounds添加置信区间和显著性水平。

Gibbs采样的收敛性：

对于复杂模型，Gibbs采样可能收敛缓慢，尤其当不同潜在类别之间的后验概率高度不平衡时。

敏感性分析的标准化：

当bounds很宽时，研究者需要进行系统性敏感性分析，但目前缺乏标准化的方法和准则。

8.6.3 应用挑战

工具的选择：

不同的激励工具可能产生不同的ETT估计。如何选择"最优"工具或如何综合多个工具的信息仍是一个开放问题。

违背工具假设的检测：

工具不等式（8.21）只能检测某些类型的违背，不能检测所有违背。当检测到违背时，难以确定具体是哪个假设被违背。

从观察数据到实验数据的迁移：

在非实验性研究中，工具变量的外生性假设更难辩护。bounds理论提供了一些可检验的约束，但仍不足以完全确保假设的有效性。

个人反思与批判性分析

8.7.1 理论贡献的评价

Pearl在本章中展示了因果推断领域的一个深刻洞见：即使在看似无望的情况下（仅有工具变量、无额外假设、无限样本），我们仍然可以做出有意义的陈述——因果效应被约束在一个可计算的区间内。这一结果对实践具有重要指导意义，因为它避免了"要么精确识别、要么一无所获"的二元思维。

规范划分（canonical partition）方法是一个优雅的数学构造，它将连续潜变量空间转化为有限状态离散变量，使得原本无限维的优化问题变成可计算的线性规划。这种"有限状态近似"的思路在整个因果推断领域具有广泛影响。

8.7.2 与传统方法的比较

对比IV回归：

传统计量经济学中的工具变量方法（如2SLS）假设线性模型和特殊函数形式，提供点估计但依赖较强的建模假设。本章的bounds方法则提供了无假设的边界，代价是估计的不精确性。两种方法各有适用场景：当建模假设可信时，IV回归更有效；当假设可疑时，bounds提供了更稳健的替代。

对比倾向得分匹配：

倾向得分方法通过条件化处理赋值概率来减少选择偏倚，但同样依赖于可忽略性假设（给定协变量条件下，潜在结果独立于处理状态）。工具变量方法不依赖可忽略性，而是依赖 exclusion restriction（工具仅通过处理影响结果）。两种假设的可信度取决于具体应用场景。

8.7.3 实践意义的思考

** Cholestyramine案例的启示**：

在38.8%不依从率的情况下，研究者仍能做出强有力的声明："治疗保证至少使39.2%的概率增加"——这不是点估计而是一个下界，但这种陈述在伦理和科学沟通上更具稳健性，因为它没有过度声称精确效果。

法律案例的双重解读：

PeptAid案例揭示了因果推断结果如何被不同利益方选择性引用。总体效应为负（PeptAid有益）和个体归因为正（PeptAid导致了原告的溃疡）这两个结论并不矛盾——它们分别对应不同的反事实问题。这提醒我们，在报告因果研究结果时必须明确界定问题框架。

8.7.4 方法论的局限性

Bounds过宽问题：

当不依从率很高时，bounds可能宽到失去实际意义。例如，Vitamin A研究的bounds从-0.19到0.01，跨越了近20个百分点的范围，这种信息量有限。如何在保持无假设性质的同时收紧bounds，是一个重要研究方向。

反事实推断的脆弱性：

即使对于单个个体（如Joe的例子），贝叶斯方法产生的后验分布也依赖于先验选择。虽然在小样本时这个例子仍得出明确结论，但更多情况下这种敏感性可能导致不稳定推断。

连续变量的理论空白：

连续$X$时工具不等式不施加任何约束这一理论发现，实际上揭示了工具变量方法在连续治疗场景下的根本局限性。这提示我们，在实际应用中应尽量将连续变量离散化（阈值化）后再应用这些方法。

8.7.5 未来研究方向

自适应边界收紧：开发在不依赖额外假设的情况下，系统性地收紧边界的方法
多层模型的整合：将贝叶斯方法与多层/层次模型结合，以处理聚类抽样和异质性效应
工具变量的选择准则：发展评估和比较多个候选工具变量的系统性框架
动态处理下的推广：将静态bounds理论推广到随时间变化的动态处理和随时间变化的依从模式
与中介分析的结合：探索工具变量方法与因果中介分析的结合，以分解直接效应和间接效应

8.7.6 阅读建议

本章内容技术性较强，建议按以下顺序学习： 1. 先理解8.1节的概念框架和核心问题 2. 掌握8.2.1-8.2.2的模型建立和变量替换思想 3. 重点理解8.2.3的线性规划转化，这是整个方法的核心 4. 8.2.4-8.2.6是应用延伸，可以快速浏览 5. 8.3节的法律案例有助于加深对反事实理解 6. 8.4节的工具检验是重要补充 7. 8.5节的贝叶斯方法提供了另一种视角，可作为进阶阅读

参考文献备注：本章主要基于Pearl (1994a, 1995b,c)、Balke and Pearl (1994a, 1997)、Imbens and Rubin (1997)、Chickering and Pearl (1997)等论文的工作。更多细节和证明请参阅原文。