第八章:使用工具变量约束因果效应
章节概述
第八章系统性地探讨了在随机化实验存在不完全依从(imperfect compliance)情况下的因果推断问题。当研究对象可以自主选择是否接受被分配的治疗时,传统的"意图治疗分析"(Intent-to-Treat)只能估计分配效应(assignment effect),而非真实的治疗效应(treatment effect)。Pearl在本章中证明了,在仅假设工具变量存在(即随机分配Z仅通过影响实际治疗X来影响结果Y,且Z与U独立)的条件下,可以为平均因果效应(ACE)提供无假设的上下界估计。
本章首先建立了部分依从性场景的图形模型框架,利用有限状态响应变量(canonical partition)将连续潜变量U映射为16种等价类,从而将复杂的约束优化问题转化为线性规划问题。通过这种方法,章节推导出了自然 bounds(natural bounds)和 sharp bounds 两种边界估计,并进一步将分析扩展到"治疗对已治疗者的效应"(ETT)、反事实推断、法律责任判定、工具变量检验以及贝叶斯方法等应用场景。
关键问题与研究动机
8.1.1 不完美实验与间接实验
传统随机对照试验(RCT)要求严格控制实验条件,将受试者随机分配至不同组别,并以各组间的均值差异作为治疗效果的度量。然而,实际研究中常出现以下三类偏离理想实验的情况:
第一,完美控制难以实现或确认。 例如,经历药物不良反应的受试者可能自行减少剂量;晚期疾病患者可能从其他途径获取药物。这种不完全依从使实验变得间接,并在结论中引入偏倚。
第二,拒绝给予对照组已知有效治疗存在伦理和法律问题。 例如在艾滋病研究中,使用安慰剂程序在伦理上难以辩护。
第三,随机化本身可能影响参与意愿和行为。 符合资格的对象可能因发现学校刻意随机化其录取标准而不愿申请;受试者对药物试验的参与意愿可能低于非实验性研究。
研究者逐渐认识到,强制随机化可能削弱实验证据的可靠性,在人类受试者实验中纳入自我选择元素有时是必要且合理的。
8.1.2 核心问题
核心问题:间接随机化(工具变量)能否提供关于程序内在价值的信息——即如果程序被统一强制应用于总体时的因果效应度量?
关键假设: 1. 对于任何给定个体,激励工具影响该个体选择的治疗,但不影响该个体对所选治疗的响应方式(工具变量定义) 2. 受试者对治疗的反应相互独立
在仅依赖这两个假设的条件下,章节证明因果效应虽不可精确识别(non-identifiable),但可以以边界(bounds)形式被约束——即保证因果效应高于某个可测量量、低于另一个可测量量。
8.1.3 意图治疗分析的局限性
"意图治疗"(ITT)分析比较对照组和治疗组时,不考虑实际是否接受了治疗。ITT分析得到的是分配效应(assignment effect)而非治疗效应。Angrist等人的校正公式将ITT测量值除以依从者的比例,但这仅对"响应者"亚群体有效,且该亚群体依赖于特定工具,无法推广到涉及整个人口的政策决策。
主要公式与推导
8.2.1 问题形式化:约束优化
建立图形模型:\(Z\)(分配)、\(X\)(实际治疗)、\(Y\)(结果)为观测到的二值变量,\(U\)为影响响应和治疗选择的潜变量。
分解公式(8.1): $\(P(y, x, z, u) = P(y | x, u) P(x | z, u) P(z) P(u)\)$
边际分布(8.2): $\(P(y, x | z) = \sum_u P(y | x, u) P(x | z, u) P(u)\)$
do算子公式(8.3): $\(P(y | do(x)) = \sum_u P(y | x, u) P(u)\)$
平均因果效应ACE(8.4): $\(ACE(X \rightarrow Y) = P(y_1 | do(x_1)) - P(y_1 | do(x_0)) = \sum_u [P(y_1 | x_1, u) - P(y_1 | x_0, u)] P(u)\)$
任务:在已知 \(P(y, x | z_0)\) 和 \(P(y, x | z_1)\) 的条件下,通过约束优化找到 \(ACE\) 的最大和最小值。
8.2.2 规范划分:有限响应变量的演化
对于二值变量 \(Y\) 和 \(X\),关系 \(y = f(x, u)\) 只能是四种函数之一(公式8.5): $\(f_0: y = 0, \quad f_1: y = x, \quad f_2: y = \lnot x, \quad f_3: y = 1\)$
因此,\(U\) 的域被划分为四个等价类,可以用四状态变量 \(R_y\) 表示。类似地,\(X\) 与 \(Z\) 的关系也可划分为四种compliance行为: - \(r_x = 0\):never-taker(从不接受治疗) - \(r_x = 1\):complier(依从者) - \(r_x = 2\):defier(反向依从者) - \(r_x = 3\):always-taker(总是接受治疗)
潜在结果映射(8.8-8.10): $\(P(y_1 | do(x_1)) = P(r_y = 1) + P(r_y = 3)\)$ $\(P(y_1 | do(x_0)) = P(r_y = 2) + P(r_y = 3)\)$ $\(ACE(X \rightarrow Y) = P(r_y = 1) - P(r_y = 2)\)$
8.2.3 线性规划公式
定义8个观测概率参数(公式8.33-8.36): $\(p_{00.0} = P(y_0, x_0 | z_0), \quad p_{00.1} = P(y_0, x_0 | z_1), \ldots\)$
和16个潜在类别参数(8.11): $\(q_{jk} = P(r_x = j, r_y = k), \quad j,k \in \{0,1,2,3\}\)$
ACE线性表示(8.12): $\(ACE(X \rightarrow Y) = q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}\)$
线性规划约束(8.13): $\(\min \quad q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}\)$ $\(\text{s.t.} \quad \sum_{j,k} q_{jk} = 1, \quad \mathbf{R} \mathbf{q} = \mathbf{p}, \quad q_{jk} \geq 0\)$
8.2.4 Sharp Bounds(8.14a, 8.14b)
通过线性规划求得的下界: $\(ACE(X \rightarrow Y) \geq \max \left\{ \frac{p_{11.1} + p_{00.0} - 1}{p_{11.0} + p_{00.1}}, \frac{p_{11.0} + p_{11.1} + p_{10.1} + p_{01.0} - p_{10.0}}{-p_{01.1} - p_{10.1}}, \frac{p_{11.1} - p_{01.0} - p_{10.0}}{-p_{01.1} - p_{10.1}}, \ldots \right\}\)$
上界类似。
8.2.5 自然Bounds(8.17)
自然bounds的宽度由不依从率 \(P(x_1 | z_0) + P(x_0 | z_1)\) 给出。
8.2.6 ETT公式(8.18-8.20)
在无侵入条件下(\(P(x_1 | z_0) = 0\)): $\(ETT(X \rightarrow Y) = \frac{P(y_1 | z_1) - P(y_1 | z_0)}{P(x_1 | z_1)}\)$
关键算法与建模方法
8.2.2 规范划分方法(Canonical Partition)
核心思想:将连续的潜变量空间 \(U\) 替换为有限状态的变量,使得模型在所有对 \(Z, X, Y\) 的观测和操作方面等价。
16等价类:\(Z, X, Y\) 均为二值变量时,\(U\) 的状态空间划分为16个等价类,每个等价类指定两个函数映射:\(Z \rightarrow X\) 和 \(X \rightarrow Y\)。用两个四值变量 \((R_x, R_y)\) 的联合空间表示。
响应类型定义: - Compliance行为(\(R_x\)):never-taker, complier, defier, always-taker - Response行为(\(R_y\)):never-recover, helped, hurt, always-recover
8.2.3 线性规划方法
变量替换:将连续函数 \(P(u), P(y_1|x_0,u), P(y_1|x_1,u), P(x_1|z_0,u), P(x_1|z_1,u)\) 替换为离散的16个 \(q_{jk}\) 参数。
约束转化: 1. 概率归一化约束:\(\sum_{j,k} q_{jk} = 1\) 2. 线性映射约束:\(\mathbf{p} = \mathbf{R} \mathbf{q}\)(将潜在参数映射到观测概率) 3. 非负约束:\(q_{jk} \geq 0\)
求解:使用线性规划的标准算法(如单纯形法)求解优化问题,得到sharp bounds。
8.4 工具变量检验
可检验不等式(8.21): $\(P(y_0, x_0 | z_0) + P(y_1, x_0 | z_1) \leq 1\)$ $\(P(y_0, x_1 | z_0) + P(y_1, x_1 | z_1) \leq 1\)$ $\(P(y_1, x_0 | z_0) + P(y_0, x_0 | z_1) \leq 1\)$ $\(P(y_1, x_1 | z_0) + P(y_0, x_1 | z_1) \leq 1\)$
工具不等式(8.22): $\(\max_x \max_y \sum_z P(y, x | z) \leq 1\)$
扩展到连续变量(8.23): $\(\int \max_z f(y | x, z) P(x | z) dy \leq 1\)$
8.5 贝叶斯方法:Gibbs采样
建模框架:将 \(P(r_x, r_y)\) 视为总体中各类别个体的潜在分数 \(\nu_r\),赋予Dirichlet先验分布。
图形模型(图8.4):表示在变量 \(\{X_i\}, \{R_i\}, v_R, ACE(X \rightarrow Y)\) 上的独立性。
Gibbs采样算法: 1. 初始化潜在类别分配 2. 迭代采样:给定观测数据和当前其他潜在变量,采样每个个体的 \((r_x^i, r_y^i)\) 3. 给定所有 \(r^i\),更新 \(v_R\) 的Dirichlet后验 4. 从更新后的 \(v_R\) 计算 \(ACE\) 值 5. 重复直到收敛,得到 \(ACE\) 的后验分布
先验选择: - Flat prior(均匀分布):表达对领域的无知 - Skewed prior(偏斜先验):表达compliance和response特征之间的强依赖
主要结论
8.2 节:Bounds的存在性与性质
-
Bounds的存在性:即使在无限样本条件下,在仅有工具变量假设(无额外建模假设)的条件下,平均因果效应ACE不可精确识别,但可以用无假设的上下界约束。
-
Sharp bounds:通过线性规划得到的bounds是"最紧"(tightest possible)的,在数学上不可再改进。
-
自然bounds:比sharp bounds更简单、适用范围更广,但通常比sharp bounds更宽松。宽度由不依从率 \(P(x_1|z_0) + P(x_0|z_1)\) 决定。
-
特殊情况:在50%不依从率下,bounds可能收缩为单点,从而实现ACE的一致估计。这发生在:(a)两个分配组中依从者的比例相同,且(b)\(Y\)和\(Z\)在至少一个治疗臂\(x\)中完全相关。
-
连续结果变量:对于连续\(Y\),令\(y_1\)表示\(Y > t\),\(y_0\)表示\(Y \leq t\),让\(t\)在\(Y\)的范围内连续变化,公式(8.15)和(8.16)提供整个治疗效应分布的bounds。
8.2.5节:ETT的可识别性
- 在无侵入条件(\(P(x_1|z_0) = 0\))下,ETT可精确识别,公式为 \(ITT / P(x_1|z_1)\)。
- ETT不是治疗的内在属性,随激励工具变化。
- ETT的bounds在一般条件下仍可通过类似方法获得。
8.3节:反事实与法律责任
关键洞察:平均治疗效应(ATE)与特定事件因果归属(causal attribution)之间的区别。
案例分析(PeptAid例子): - 从人口层面:PeptAid对总体有益(bounds: \(-0.23 \leq ETT \leq -0.15\)) - 从个体层面(原告类别):至少93%的人如果没有被鼓励服用PeptAid就不会得溃疡
法律意义:在特定反事实查询中,即使总体效应为负,对特定个体的因果归因仍可能成立。
8.4节:工具变量的可检验性
-
关键发现:工具变量的外生性假设在传统上被认为不可检验,但bounds理论揭示了可检验的不等式约束。
-
工具不等式:任何满足工具变量假设的分布必须满足 \(\max_x \max_y \sum_z P(y,x|z) \leq 1\)。
-
违反解释:如果精心随机化的分配违反了这些不等式,必须归因于分配过程对受试者响应的直接影响(如创伤性体验);如果可以直接效应可被消除,则违反归因于assignment bias和外生性丧失。
-
与量子力学的联系:工具不等式与Bell不等式的相似性不是巧合——两者都划定了一类观察到的相关性,这类相关性不能通过假设潜 Common causes 来解释。
8.5节:贝叶斯方法
-
后验分布:Gibbs采样提供ACE的完整后验分布,而非仅仅是bounds。
-
先验影响:随着样本量增加,不同先验的后验分布都收敛到真实值。对于小样本,先验选择有显著影响。
-
临床应用:
- Lipid研究(n=337):bounds为\(0.39 \leq ACE \leq 0.78\),即使小样本下后验分布也高度集中于该区间
-
Vitamin A研究:bounds为\(-0.19 \leq ACE \leq 0.01\),对小样本敏感,需要进行敏感性分析
-
单事件因果估计:Gibbs采样可用于估计特定个体的反事实概率(如"Joe如果服用了药,他的胆固醇会改善吗?")。
公式汇总表
| 编号 | 公式名称 | 公式内容 | 应用场景 |
|---|---|---|---|
| (8.1) | 联合分解 | $P(y,x,z,u) = P(y | x,u)P(x |
| (8.2) | 边际分布 | $P(y,x | z) = \sum_u P(y |
| (8.3) | do算子 | $P(y | do(x)) = \sum_u P(y |
| (8.4) | ACE定义 | $ACE = \sum_u [P(y_1 | x_1,u) - P(y_1 |
| (8.8)-(8.10) | 响应映射 | $P(y_1 | do(x_1)) = P(r_y=1)+P(r_y=3)$ 等 |
| (8.12) | ACE线性表示 | \(ACE = q_{01}+q_{11}+q_{21}+q_{31}-q_{02}-q_{12}-q_{22}-q_{32}\) | 线性规划目标函数 |
| (8.14a,b) | Sharp bounds | 见公式详情 | ACE的最紧边界 |
| (8.17) | 自然bounds | $ACE \geq ITT - P(y_1,x_0 | z_1) - P(y_0,x_1 |
| (8.18) | ETT定义 | $ETT = P(Y_{x1}=y_1 | x_1) - P(Y_{x0}=y_1 |
| (8.20) | ETT识别 | $ETT = ITT / P(x_1 | z_1)$(无侵入条件) |
| (8.21) | 可检验不等式 | $P(y_0,x_0 | z_0)+P(y_1,x_0 |
| (8.22) | 工具不等式 | $\max_x \max_y \sum_z P(y,x | z) \leq 1$ |
挑战与开放问题
8.6.1 理论挑战
连续治疗变量的边界:
Pearl(1995c)猜想:图8.1的结构对连续\(X\)的观测密度不施加任何约束。Bonet(2001)证明了这一猜想。这意味着当\(X\)为连续变量时,工具变量方法可能完全不提供关于因果效应的信息。
Sharp bounds的计算复杂性:
对于高维或多值变量,线性规划问题的规模(状态数指数增长)可能变得不可处理。需要发展更高效的算法或近似方法。
部分依从下的ATE识别条件:
何种条件下,即使存在不完美依从,ACE仍可被精确识别?章节提到当满足两个特殊条件时bounds会收缩为单点,但更一般的识别条件尚需进一步研究。
8.6.2 方法论挑战
样本变异性:
大样本假设下推导的bounds没有考虑有限样本的变异性。实际应用中需要为bounds添加置信区间和显著性水平。
Gibbs采样的收敛性:
对于复杂模型,Gibbs采样可能收敛缓慢,尤其当不同潜在类别之间的后验概率高度不平衡时。
敏感性分析的标准化:
当bounds很宽时,研究者需要进行系统性敏感性分析,但目前缺乏标准化的方法和准则。
8.6.3 应用挑战
工具的选择:
不同的激励工具可能产生不同的ETT估计。如何选择"最优"工具或如何综合多个工具的信息仍是一个开放问题。
违背工具假设的检测:
工具不等式(8.21)只能检测某些类型的违背,不能检测所有违背。当检测到违背时,难以确定具体是哪个假设被违背。
从观察数据到实验数据的迁移:
在非实验性研究中,工具变量的外生性假设更难辩护。bounds理论提供了一些可检验的约束,但仍不足以完全确保假设的有效性。
个人反思与批判性分析
8.7.1 理论贡献的评价
Pearl在本章中展示了因果推断领域的一个深刻洞见:即使在看似无望的情况下(仅有工具变量、无额外假设、无限样本),我们仍然可以做出有意义的陈述——因果效应被约束在一个可计算的区间内。这一结果对实践具有重要指导意义,因为它避免了"要么精确识别、要么一无所获"的二元思维。
规范划分(canonical partition)方法是一个优雅的数学构造,它将连续潜变量空间转化为有限状态离散变量,使得原本无限维的优化问题变成可计算的线性规划。这种"有限状态近似"的思路在整个因果推断领域具有广泛影响。
8.7.2 与传统方法的比较
对比IV回归:
传统计量经济学中的工具变量方法(如2SLS)假设线性模型和特殊函数形式,提供点估计但依赖较强的建模假设。本章的bounds方法则提供了无假设的边界,代价是估计的不精确性。两种方法各有适用场景:当建模假设可信时,IV回归更有效;当假设可疑时,bounds提供了更稳健的替代。
对比倾向得分匹配:
倾向得分方法通过条件化处理赋值概率来减少选择偏倚,但同样依赖于可忽略性假设(给定协变量条件下,潜在结果独立于处理状态)。工具变量方法不依赖可忽略性,而是依赖 exclusion restriction(工具仅通过处理影响结果)。两种假设的可信度取决于具体应用场景。
8.7.3 实践意义的思考
** Cholestyramine案例的启示**:
在38.8%不依从率的情况下,研究者仍能做出强有力的声明:"治疗保证至少使39.2%的概率增加"——这不是点估计而是一个下界,但这种陈述在伦理和科学沟通上更具稳健性,因为它没有过度声称精确效果。
法律案例的双重解读:
PeptAid案例揭示了因果推断结果如何被不同利益方选择性引用。总体效应为负(PeptAid有益)和个体归因为正(PeptAid导致了原告的溃疡)这两个结论并不矛盾——它们分别对应不同的反事实问题。这提醒我们,在报告因果研究结果时必须明确界定问题框架。
8.7.4 方法论的局限性
Bounds过宽问题:
当不依从率很高时,bounds可能宽到失去实际意义。例如,Vitamin A研究的bounds从-0.19到0.01,跨越了近20个百分点的范围,这种信息量有限。如何在保持无假设性质的同时收紧bounds,是一个重要研究方向。
反事实推断的脆弱性:
即使对于单个个体(如Joe的例子),贝叶斯方法产生的后验分布也依赖于先验选择。虽然在小样本时这个例子仍得出明确结论,但更多情况下这种敏感性可能导致不稳定推断。
连续变量的理论空白:
连续\(X\)时工具不等式不施加任何约束这一理论发现,实际上揭示了工具变量方法在连续治疗场景下的根本局限性。这提示我们,在实际应用中应尽量将连续变量离散化(阈值化)后再应用这些方法。
8.7.5 未来研究方向
-
自适应边界收紧:开发在不依赖额外假设的情况下,系统性地收紧边界的方法
-
多层模型的整合:将贝叶斯方法与多层/层次模型结合,以处理聚类抽样和异质性效应
-
工具变量的选择准则:发展评估和比较多个候选工具变量的系统性框架
-
动态处理下的推广:将静态bounds理论推广到随时间变化的动态处理和随时间变化的依从模式
-
与中介分析的结合:探索工具变量方法与因果中介分析的结合,以分解直接效应和间接效应
8.7.6 阅读建议
本章内容技术性较强,建议按以下顺序学习: 1. 先理解8.1节的概念框架和核心问题 2. 掌握8.2.1-8.2.2的模型建立和变量替换思想 3. 重点理解8.2.3的线性规划转化,这是整个方法的核心 4. 8.2.4-8.2.6是应用延伸,可以快速浏览 5. 8.3节的法律案例有助于加深对反事实理解 6. 8.4节的工具检验是重要补充 7. 8.5节的贝叶斯方法提供了另一种视角,可作为进阶阅读
参考文献备注:本章主要基于Pearl (1994a, 1995b,c)、Balke and Pearl (1994a, 1997)、Imbens and Rubin (1997)、Chickering and Pearl (1997)等论文的工作。更多细节和证明请参阅原文。