跳转至

第八章:使用工具变量约束因果效应

章节概述

第八章系统性地探讨了在随机化实验存在不完全依从(imperfect compliance)情况下的因果推断问题。当研究对象可以自主选择是否接受被分配的治疗时,传统的"意图治疗分析"(Intent-to-Treat)只能估计分配效应(assignment effect),而非真实的治疗效应(treatment effect)。Pearl在本章中证明了,在仅假设工具变量存在(即随机分配Z仅通过影响实际治疗X来影响结果Y,且Z与U独立)的条件下,可以为平均因果效应(ACE)提供无假设的上下界估计。

本章首先建立了部分依从性场景的图形模型框架,利用有限状态响应变量(canonical partition)将连续潜变量U映射为16种等价类,从而将复杂的约束优化问题转化为线性规划问题。通过这种方法,章节推导出了自然 bounds(natural bounds)和 sharp bounds 两种边界估计,并进一步将分析扩展到"治疗对已治疗者的效应"(ETT)、反事实推断、法律责任判定、工具变量检验以及贝叶斯方法等应用场景。


关键问题与研究动机

8.1.1 不完美实验与间接实验

传统随机对照试验(RCT)要求严格控制实验条件,将受试者随机分配至不同组别,并以各组间的均值差异作为治疗效果的度量。然而,实际研究中常出现以下三类偏离理想实验的情况:

第一,完美控制难以实现或确认。 例如,经历药物不良反应的受试者可能自行减少剂量;晚期疾病患者可能从其他途径获取药物。这种不完全依从使实验变得间接,并在结论中引入偏倚。

第二,拒绝给予对照组已知有效治疗存在伦理和法律问题。 例如在艾滋病研究中,使用安慰剂程序在伦理上难以辩护。

第三,随机化本身可能影响参与意愿和行为。 符合资格的对象可能因发现学校刻意随机化其录取标准而不愿申请;受试者对药物试验的参与意愿可能低于非实验性研究。

研究者逐渐认识到,强制随机化可能削弱实验证据的可靠性,在人类受试者实验中纳入自我选择元素有时是必要且合理的。

8.1.2 核心问题

核心问题:间接随机化(工具变量)能否提供关于程序内在价值的信息——即如果程序被统一强制应用于总体时的因果效应度量?

关键假设: 1. 对于任何给定个体,激励工具影响该个体选择的治疗,但不影响该个体对所选治疗的响应方式(工具变量定义) 2. 受试者对治疗的反应相互独立

在仅依赖这两个假设的条件下,章节证明因果效应虽不可精确识别(non-identifiable),但可以以边界(bounds)形式被约束——即保证因果效应高于某个可测量量、低于另一个可测量量。

8.1.3 意图治疗分析的局限性

"意图治疗"(ITT)分析比较对照组和治疗组时,不考虑实际是否接受了治疗。ITT分析得到的是分配效应(assignment effect)而非治疗效应。Angrist等人的校正公式将ITT测量值除以依从者的比例,但这仅对"响应者"亚群体有效,且该亚群体依赖于特定工具,无法推广到涉及整个人口的政策决策。


主要公式与推导

8.2.1 问题形式化:约束优化

建立图形模型:\(Z\)(分配)、\(X\)(实际治疗)、\(Y\)(结果)为观测到的二值变量,\(U\)为影响响应和治疗选择的潜变量。

分解公式(8.1): $\(P(y, x, z, u) = P(y | x, u) P(x | z, u) P(z) P(u)\)$

边际分布(8.2): $\(P(y, x | z) = \sum_u P(y | x, u) P(x | z, u) P(u)\)$

do算子公式(8.3): $\(P(y | do(x)) = \sum_u P(y | x, u) P(u)\)$

平均因果效应ACE(8.4): $\(ACE(X \rightarrow Y) = P(y_1 | do(x_1)) - P(y_1 | do(x_0)) = \sum_u [P(y_1 | x_1, u) - P(y_1 | x_0, u)] P(u)\)$

任务:在已知 \(P(y, x | z_0)\)\(P(y, x | z_1)\) 的条件下,通过约束优化找到 \(ACE\) 的最大和最小值。

8.2.2 规范划分:有限响应变量的演化

对于二值变量 \(Y\)\(X\),关系 \(y = f(x, u)\) 只能是四种函数之一(公式8.5): $\(f_0: y = 0, \quad f_1: y = x, \quad f_2: y = \lnot x, \quad f_3: y = 1\)$

因此,\(U\) 的域被划分为四个等价类,可以用四状态变量 \(R_y\) 表示。类似地,\(X\)\(Z\) 的关系也可划分为四种compliance行为: - \(r_x = 0\):never-taker(从不接受治疗) - \(r_x = 1\):complier(依从者) - \(r_x = 2\):defier(反向依从者) - \(r_x = 3\):always-taker(总是接受治疗)

潜在结果映射(8.8-8.10): $\(P(y_1 | do(x_1)) = P(r_y = 1) + P(r_y = 3)\)$ $\(P(y_1 | do(x_0)) = P(r_y = 2) + P(r_y = 3)\)$ $\(ACE(X \rightarrow Y) = P(r_y = 1) - P(r_y = 2)\)$

8.2.3 线性规划公式

定义8个观测概率参数(公式8.33-8.36): $\(p_{00.0} = P(y_0, x_0 | z_0), \quad p_{00.1} = P(y_0, x_0 | z_1), \ldots\)$

和16个潜在类别参数(8.11): $\(q_{jk} = P(r_x = j, r_y = k), \quad j,k \in \{0,1,2,3\}\)$

ACE线性表示(8.12): $\(ACE(X \rightarrow Y) = q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}\)$

线性规划约束(8.13): $\(\min \quad q_{01} + q_{11} + q_{21} + q_{31} - q_{02} - q_{12} - q_{22} - q_{32}\)$ $\(\text{s.t.} \quad \sum_{j,k} q_{jk} = 1, \quad \mathbf{R} \mathbf{q} = \mathbf{p}, \quad q_{jk} \geq 0\)$

8.2.4 Sharp Bounds(8.14a, 8.14b)

通过线性规划求得的下界: $\(ACE(X \rightarrow Y) \geq \max \left\{ \frac{p_{11.1} + p_{00.0} - 1}{p_{11.0} + p_{00.1}}, \frac{p_{11.0} + p_{11.1} + p_{10.1} + p_{01.0} - p_{10.0}}{-p_{01.1} - p_{10.1}}, \frac{p_{11.1} - p_{01.0} - p_{10.0}}{-p_{01.1} - p_{10.1}}, \ldots \right\}\)$

上界类似。

8.2.5 自然Bounds(8.17)

\[ACE(X \rightarrow Y) \geq P(y_1 | z_1) - P(y_1 | z_0) - P(y_1, x_0 | z_1) - P(y_0, x_1 | z_0)$$ $$ACE(X \rightarrow Y) \leq P(y_1 | z_1) - P(y_1 | z_0) + P(y_0, x_0 | z_1) + P(y_1, x_1 | z_0)\]

自然bounds的宽度由不依从率 \(P(x_1 | z_0) + P(x_0 | z_1)\) 给出。

8.2.6 ETT公式(8.18-8.20)

\[ETT(X \rightarrow Y) = P(Y_{x1} = y_1 | x_1) - P(Y_{x0} = y_1 | x_1) = \sum_u [P(y_1 | x_1, u) - P(y_1 | x_0, u)] P(u | x_1)\]

在无侵入条件下(\(P(x_1 | z_0) = 0\)): $\(ETT(X \rightarrow Y) = \frac{P(y_1 | z_1) - P(y_1 | z_0)}{P(x_1 | z_1)}\)$


关键算法与建模方法

8.2.2 规范划分方法(Canonical Partition)

核心思想:将连续的潜变量空间 \(U\) 替换为有限状态的变量,使得模型在所有对 \(Z, X, Y\) 的观测和操作方面等价。

16等价类\(Z, X, Y\) 均为二值变量时,\(U\) 的状态空间划分为16个等价类,每个等价类指定两个函数映射:\(Z \rightarrow X\)\(X \rightarrow Y\)。用两个四值变量 \((R_x, R_y)\) 的联合空间表示。

响应类型定义: - Compliance行为(\(R_x\)):never-taker, complier, defier, always-taker - Response行为(\(R_y\)):never-recover, helped, hurt, always-recover

8.2.3 线性规划方法

变量替换:将连续函数 \(P(u), P(y_1|x_0,u), P(y_1|x_1,u), P(x_1|z_0,u), P(x_1|z_1,u)\) 替换为离散的16个 \(q_{jk}\) 参数。

约束转化: 1. 概率归一化约束:\(\sum_{j,k} q_{jk} = 1\) 2. 线性映射约束:\(\mathbf{p} = \mathbf{R} \mathbf{q}\)(将潜在参数映射到观测概率) 3. 非负约束:\(q_{jk} \geq 0\)

求解:使用线性规划的标准算法(如单纯形法)求解优化问题,得到sharp bounds。

8.4 工具变量检验

可检验不等式(8.21): $\(P(y_0, x_0 | z_0) + P(y_1, x_0 | z_1) \leq 1\)$ $\(P(y_0, x_1 | z_0) + P(y_1, x_1 | z_1) \leq 1\)$ $\(P(y_1, x_0 | z_0) + P(y_0, x_0 | z_1) \leq 1\)$ $\(P(y_1, x_1 | z_0) + P(y_0, x_1 | z_1) \leq 1\)$

工具不等式(8.22): $\(\max_x \max_y \sum_z P(y, x | z) \leq 1\)$

扩展到连续变量(8.23): $\(\int \max_z f(y | x, z) P(x | z) dy \leq 1\)$

8.5 贝叶斯方法:Gibbs采样

建模框架:将 \(P(r_x, r_y)\) 视为总体中各类别个体的潜在分数 \(\nu_r\),赋予Dirichlet先验分布。

图形模型(图8.4):表示在变量 \(\{X_i\}, \{R_i\}, v_R, ACE(X \rightarrow Y)\) 上的独立性。

Gibbs采样算法: 1. 初始化潜在类别分配 2. 迭代采样:给定观测数据和当前其他潜在变量,采样每个个体的 \((r_x^i, r_y^i)\) 3. 给定所有 \(r^i\),更新 \(v_R\) 的Dirichlet后验 4. 从更新后的 \(v_R\) 计算 \(ACE\) 值 5. 重复直到收敛,得到 \(ACE\) 的后验分布

先验选择: - Flat prior(均匀分布):表达对领域的无知 - Skewed prior(偏斜先验):表达compliance和response特征之间的强依赖


主要结论

8.2 节:Bounds的存在性与性质

  1. Bounds的存在性:即使在无限样本条件下,在仅有工具变量假设(无额外建模假设)的条件下,平均因果效应ACE不可精确识别,但可以用无假设的上下界约束。

  2. Sharp bounds:通过线性规划得到的bounds是"最紧"(tightest possible)的,在数学上不可再改进。

  3. 自然bounds:比sharp bounds更简单、适用范围更广,但通常比sharp bounds更宽松。宽度由不依从率 \(P(x_1|z_0) + P(x_0|z_1)\) 决定。

  4. 特殊情况:在50%不依从率下,bounds可能收缩为单点,从而实现ACE的一致估计。这发生在:(a)两个分配组中依从者的比例相同,且(b)\(Y\)\(Z\)在至少一个治疗臂\(x\)中完全相关。

  5. 连续结果变量:对于连续\(Y\),令\(y_1\)表示\(Y > t\)\(y_0\)表示\(Y \leq t\),让\(t\)\(Y\)的范围内连续变化,公式(8.15)和(8.16)提供整个治疗效应分布的bounds。

8.2.5节:ETT的可识别性

  • 在无侵入条件(\(P(x_1|z_0) = 0\))下,ETT可精确识别,公式为 \(ITT / P(x_1|z_1)\)
  • ETT不是治疗的内在属性,随激励工具变化。
  • ETT的bounds在一般条件下仍可通过类似方法获得。

8.3节:反事实与法律责任

关键洞察:平均治疗效应(ATE)与特定事件因果归属(causal attribution)之间的区别。

案例分析(PeptAid例子): - 从人口层面:PeptAid对总体有益(bounds: \(-0.23 \leq ETT \leq -0.15\)) - 从个体层面(原告类别):至少93%的人如果没有被鼓励服用PeptAid就不会得溃疡

法律意义:在特定反事实查询中,即使总体效应为负,对特定个体的因果归因仍可能成立。

8.4节:工具变量的可检验性

  1. 关键发现:工具变量的外生性假设在传统上被认为不可检验,但bounds理论揭示了可检验的不等式约束

  2. 工具不等式:任何满足工具变量假设的分布必须满足 \(\max_x \max_y \sum_z P(y,x|z) \leq 1\)

  3. 违反解释:如果精心随机化的分配违反了这些不等式,必须归因于分配过程对受试者响应的直接影响(如创伤性体验);如果可以直接效应可被消除,则违反归因于assignment bias和外生性丧失。

  4. 与量子力学的联系:工具不等式与Bell不等式的相似性不是巧合——两者都划定了一类观察到的相关性,这类相关性不能通过假设潜 Common causes 来解释。

8.5节:贝叶斯方法

  1. 后验分布:Gibbs采样提供ACE的完整后验分布,而非仅仅是bounds。

  2. 先验影响:随着样本量增加,不同先验的后验分布都收敛到真实值。对于小样本,先验选择有显著影响。

  3. 临床应用

  4. Lipid研究(n=337):bounds为\(0.39 \leq ACE \leq 0.78\),即使小样本下后验分布也高度集中于该区间
  5. Vitamin A研究:bounds为\(-0.19 \leq ACE \leq 0.01\),对小样本敏感,需要进行敏感性分析

  6. 单事件因果估计:Gibbs采样可用于估计特定个体的反事实概率(如"Joe如果服用了药,他的胆固醇会改善吗?")。


公式汇总表

编号 公式名称 公式内容 应用场景
(8.1) 联合分解 $P(y,x,z,u) = P(y x,u)P(x
(8.2) 边际分布 $P(y,x z) = \sum_u P(y
(8.3) do算子 $P(y do(x)) = \sum_u P(y
(8.4) ACE定义 $ACE = \sum_u [P(y_1 x_1,u) - P(y_1
(8.8)-(8.10) 响应映射 $P(y_1 do(x_1)) = P(r_y=1)+P(r_y=3)$ 等
(8.12) ACE线性表示 \(ACE = q_{01}+q_{11}+q_{21}+q_{31}-q_{02}-q_{12}-q_{22}-q_{32}\) 线性规划目标函数
(8.14a,b) Sharp bounds 见公式详情 ACE的最紧边界
(8.17) 自然bounds $ACE \geq ITT - P(y_1,x_0 z_1) - P(y_0,x_1
(8.18) ETT定义 $ETT = P(Y_{x1}=y_1 x_1) - P(Y_{x0}=y_1
(8.20) ETT识别 $ETT = ITT / P(x_1 z_1)$(无侵入条件)
(8.21) 可检验不等式 $P(y_0,x_0 z_0)+P(y_1,x_0
(8.22) 工具不等式 $\max_x \max_y \sum_z P(y,x z) \leq 1$

挑战与开放问题

8.6.1 理论挑战

连续治疗变量的边界

Pearl(1995c)猜想:图8.1的结构对连续\(X\)的观测密度不施加任何约束。Bonet(2001)证明了这一猜想。这意味着当\(X\)为连续变量时,工具变量方法可能完全不提供关于因果效应的信息。

Sharp bounds的计算复杂性

对于高维或多值变量,线性规划问题的规模(状态数指数增长)可能变得不可处理。需要发展更高效的算法或近似方法。

部分依从下的ATE识别条件

何种条件下,即使存在不完美依从,ACE仍可被精确识别?章节提到当满足两个特殊条件时bounds会收缩为单点,但更一般的识别条件尚需进一步研究。

8.6.2 方法论挑战

样本变异性

大样本假设下推导的bounds没有考虑有限样本的变异性。实际应用中需要为bounds添加置信区间和显著性水平。

Gibbs采样的收敛性

对于复杂模型,Gibbs采样可能收敛缓慢,尤其当不同潜在类别之间的后验概率高度不平衡时。

敏感性分析的标准化

当bounds很宽时,研究者需要进行系统性敏感性分析,但目前缺乏标准化的方法和准则。

8.6.3 应用挑战

工具的选择

不同的激励工具可能产生不同的ETT估计。如何选择"最优"工具或如何综合多个工具的信息仍是一个开放问题。

违背工具假设的检测

工具不等式(8.21)只能检测某些类型的违背,不能检测所有违背。当检测到违背时,难以确定具体是哪个假设被违背。

从观察数据到实验数据的迁移

在非实验性研究中,工具变量的外生性假设更难辩护。bounds理论提供了一些可检验的约束,但仍不足以完全确保假设的有效性。


个人反思与批判性分析

8.7.1 理论贡献的评价

Pearl在本章中展示了因果推断领域的一个深刻洞见:即使在看似无望的情况下(仅有工具变量、无额外假设、无限样本),我们仍然可以做出有意义的陈述——因果效应被约束在一个可计算的区间内。这一结果对实践具有重要指导意义,因为它避免了"要么精确识别、要么一无所获"的二元思维。

规范划分(canonical partition)方法是一个优雅的数学构造,它将连续潜变量空间转化为有限状态离散变量,使得原本无限维的优化问题变成可计算的线性规划。这种"有限状态近似"的思路在整个因果推断领域具有广泛影响。

8.7.2 与传统方法的比较

对比IV回归

传统计量经济学中的工具变量方法(如2SLS)假设线性模型和特殊函数形式,提供点估计但依赖较强的建模假设。本章的bounds方法则提供了无假设的边界,代价是估计的不精确性。两种方法各有适用场景:当建模假设可信时,IV回归更有效;当假设可疑时,bounds提供了更稳健的替代。

对比倾向得分匹配

倾向得分方法通过条件化处理赋值概率来减少选择偏倚,但同样依赖于可忽略性假设(给定协变量条件下,潜在结果独立于处理状态)。工具变量方法不依赖可忽略性,而是依赖 exclusion restriction(工具仅通过处理影响结果)。两种假设的可信度取决于具体应用场景。

8.7.3 实践意义的思考

** Cholestyramine案例的启示**:

在38.8%不依从率的情况下,研究者仍能做出强有力的声明:"治疗保证至少使39.2%的概率增加"——这不是点估计而是一个下界,但这种陈述在伦理和科学沟通上更具稳健性,因为它没有过度声称精确效果。

法律案例的双重解读

PeptAid案例揭示了因果推断结果如何被不同利益方选择性引用。总体效应为负(PeptAid有益)和个体归因为正(PeptAid导致了原告的溃疡)这两个结论并不矛盾——它们分别对应不同的反事实问题。这提醒我们,在报告因果研究结果时必须明确界定问题框架。

8.7.4 方法论的局限性

Bounds过宽问题

当不依从率很高时,bounds可能宽到失去实际意义。例如,Vitamin A研究的bounds从-0.19到0.01,跨越了近20个百分点的范围,这种信息量有限。如何在保持无假设性质的同时收紧bounds,是一个重要研究方向。

反事实推断的脆弱性

即使对于单个个体(如Joe的例子),贝叶斯方法产生的后验分布也依赖于先验选择。虽然在小样本时这个例子仍得出明确结论,但更多情况下这种敏感性可能导致不稳定推断。

连续变量的理论空白

连续\(X\)时工具不等式不施加任何约束这一理论发现,实际上揭示了工具变量方法在连续治疗场景下的根本局限性。这提示我们,在实际应用中应尽量将连续变量离散化(阈值化)后再应用这些方法。

8.7.5 未来研究方向

  1. 自适应边界收紧:开发在不依赖额外假设的情况下,系统性地收紧边界的方法

  2. 多层模型的整合:将贝叶斯方法与多层/层次模型结合,以处理聚类抽样和异质性效应

  3. 工具变量的选择准则:发展评估和比较多个候选工具变量的系统性框架

  4. 动态处理下的推广:将静态bounds理论推广到随时间变化的动态处理和随时间变化的依从模式

  5. 与中介分析的结合:探索工具变量方法与因果中介分析的结合,以分解直接效应和间接效应

8.7.6 阅读建议

本章内容技术性较强,建议按以下顺序学习: 1. 先理解8.1节的概念框架和核心问题 2. 掌握8.2.1-8.2.2的模型建立和变量替换思想 3. 重点理解8.2.3的线性规划转化,这是整个方法的核心 4. 8.2.4-8.2.6是应用延伸,可以快速浏览 5. 8.3节的法律案例有助于加深对反事实理解 6. 8.4节的工具检验是重要补充 7. 8.5节的贝叶斯方法提供了另一种视角,可作为进阶阅读


参考文献备注:本章主要基于Pearl (1994a, 1995b,c)、Balke and Pearl (1994a, 1997)、Imbens and Rubin (1997)、Chickering and Pearl (1997)等论文的工作。更多细节和证明请参阅原文。