跳转至

《为什么:因果关系的新科学》第七章读书笔记

一、章节概述与背景

本章以"超越调整:征服干预之山"为题,正式进入因果关系阶梯的第二层级——干预层级(intervention)。这是从古至今因果思维的核心圣地,涉及预测尚未尝试过的行动和政策的效应,涵盖医学治疗、社会项目、经济政策以及个人选择等领域。

作者Judea Pearl将征服干预之山比喻为登山探险:对于初学者而言,最安全的路线是后门调整及其各种变体,包括"前门调整"和"工具变量";对于有经验的攀登者,则可以使用一种名为"do-微积分"(do-calculus)的通用绘图工具来探索和规划所有可能的路线。

本章的历史背景可追溯至1854年John Snow对霍乱传播的研究,他通过敏锐的观察发现了水公司作为"工具变量"的作用,无需知道混杂因素即可确定因果效应。这一思路与20世纪Sewall Wright的路径分析、Haavelmo的结构方程模型修正一脉相承,最终在Pearl的do-微积分中达到理论上的完备性。


二、关键问题与研究动机

核心问题

本章要回答的中心问题是:如何在无法进行随机对照实验的情况下,从观测数据中估计因果效应?

具体而言: 1. 当存在无法观测的混杂因素时,如何估计干预效应? 2. 是否存在通用的数学准则来判断某个因果模型的干预效应是否可以从观测数据中识别? 3. 如何系统地将包含do算子的概率表达式转换为仅包含普通条件概率的do-free表达式?

研究动机

Pearl指出,进行一次随机对照试验(RCT)的成本极高,且在许多情况下物理上不可行或法律上不允许。因此,科学家们梦寐以求的是找到一种纯数学方法来判断:给定一个因果模型,是否可以用观测数据替代实验来回答因果查询。这一愿景激发了do-微积分的发明——正如希帕克斯无需攀爬金字塔,仅凭阴影就能计算出其高度一样。


三、公式推导与理论框架

3.1 后门调整公式(Back-Door Adjustment)

后门准则(Back-Door Criterion):如果一组变量Z阻断了X和Y之间的所有后门路径(在Z条件下,X和Y无后门关联),且Z中不存在X的后代节点,则Z是识别因果效应所需的充分混杂因子集。

后门调整公式

\[ P(Y \mid do(X)) = \sum_{z} P(Y \mid X, Z = z) P(Z = z) \]

该公式的直观含义是:在每个混杂因子层面(Z的每个取值)计算X对Y的因果效应,然后按各层在人群中的流行率加权平均。

3.2 前门调整公式(Front-Door Adjustment)

当无法获得混杂因子的数据时,前门调整提供了一条替代路径。其核心思想是:虽然无法直接阻断后门路径,但可以通过识别中介变量来间接估计因果效应。

前门准则(Front-Door Criterion):一组变量M满足以下条件: 1. M阻断了从X到Y的所有有向路径(无后门路径) 2. X到M不存在未阻断的后门路径 3. M被X到Y的所有因果路径所覆盖

前门调整公式(式7.1):

\[ P(Y \mid do(X)) = \sum_{z} P(Z = z \mid X) \sum_{x} P(Y \mid X = x, Z = z) P(X = x) \]

其中Z是中介变量。公式巧妙地将不可观测的混杂因子U排除在外,实现了即使存在未观测混杂也能估计因果效应的壮举。

3.3 do-微积分三条规则

Pearl借鉴欧几里得几何公理化的方法,为do算子的消除建立了三条推导规则:

规则1(添加/删除观测)

\[ P(Y \mid do(X), Z, W) = P(Y \mid do(X), Z) \]

条件:变量集Z阻断了所有从W到Y的路径(在删除所有指向X的箭头后的图中)。

规则2(干预/观测互换)

\[ P(Y \mid do(X), Z) = P(Y \mid X, Z) \]

条件:Z满足后门准则,即Z阻断了X和Y之间的所有后门路径。

规则3(添加/删除干预)

\[ P(Y \mid do(X)) = P(Y) \]

条件:X和Y之间不存在有向因果路径。

3.4 完备性定理

2006年,Yiming Huang、Marco Valtorta以及Ilya Shpitser独立证明了do-微积分的完备性:每当因果效应可从观测数据中识别时,必定存在一条使用这三条规则的有限推导序列将do算子消除。这意味着如果do-微积分无法找到消除do的方法,则该因果效应本质上无法从观测数据中识别,只能诉诸干预实验。

3.5 工具变量法(Instrumental Variables)

工具变量是解决未观测混杂问题的另一重要工具。一个变量Z被称为X对Y的工具有效(instrument),当且仅当: 1. Z与混杂因子U独立 2. Z对X有因果效应(\(Z \to X\)) 3. Z对Y无直接效应(\(Z \nrightarrow Y\)),其对Y的影响必须通过X介导

在线性模型下,因果效应可由下式给出:

\[ b = \frac{r_{ZY}}{r_{ZX}} \]

其中\(r_{ZY}\)\(r_{ZX}\)分别是Z对Y和Z对X的回归系数。


四、算法方法与实践应用

4.1 回归方法与后门调整

在最简单的线性情形中,偏回归系数自动执行后门调整。设回归方程为:

\[ Y = aX + bZ + c \]

则系数\(a\)等于X对Y的平均因果效应——前提是Z是唯一的混杂因子。这一"神奇简化"使得研究者无需手动分层计算,只需拟合最佳平面即可。

然而,Pearl特别警告:回归系数本身并不携带因果信息,只有在因果图的帮助下(确认Z是混杂因子),偏回归系数才具有因果含义。

4.2 前门调整的实际应用

Glynn和Kashin(2014)将前门调整应用于就业培训合伙法案(JTPA)研究数据集。他们比较了后门调整、前门调整和随机对照实验三种方法的结果: - 后门调整(控制年龄、种族、地点):估计值与RCT基准相差数百至数千美元,严重偏误 - 前门调整:男性估计值在实验误差范围内,女性估计值与RCT几乎完美匹配

这一实证研究表明:只要中介变量到混杂因子的箭头足够弱,前门调整就能给出相当准确的估计,且优于不进行任何控制。

4.3 do-微积分的算法

Ilya Shpitser在Jin Tian的早期工作基础上,提出了识别因果效应的多项式时间算法。该算法可以判断对于给定的因果图和查询\(P(Y \mid do(X))\),是否存在一条消除do的推导路径。

应用实例:Elias Bareinboim构造了一个仅含四个观测变量和两个不可观测变量的因果图(Figure 7.5),该图既不满足后门准则也不满足前门准则。通过do-微积分,Pearl成功找到了消除do的方法——这是已知的最简单的需要超越前后门调整的模型。

4.4 序贯决策问题

Wermuth和Cox提出的"序贯决策"或"时变治疗"问题(常见于艾滋病治疗):在多个时间点根据患者状况调整药物剂量。Pearl利用do-微积分仅用三行计算就解决了这一困扰两位顶级统计学家多年的问题。核心思路是将目标表达式\(P(Y \mid do(X), do(Z))\)转换为实验条件下的表达式(do仅作用于X)。


五、主要结论与核心洞见

5.1 do-算子与do-微积分的核心地位

Pearl将do-微积分视为因果推理的"欧几里得公理"。它解决了"何时可以用观测数据替代实验"这一根本问题,使研究者能够: - 预先判断因果效应是否可识别 - 获得精确的识别公式(如果存在) - 知晓需要哪些额外假设或实验才能使因果效应可识别

5.2 三种识别策略的层次关系

策略 适用条件 所需假设
后门调整 可观测混杂因子,阻断所有后门路径 混杂因子可观测且完备
前门调整 存在中介变量,中介变量不被混杂因子影响 无直接效应路径、中介可观测
工具变量 存在满足三条件的工具变量 线性和单调性等函数假设
do-微积分 通用框架 因果图结构假设

5.3 因果图的优势

本章反复强调的一个核心洞见是:因果图为研究者提供了明确、透明的假设陈述。Figure 7.1中关于吸烟的三个关键假设(吸烟基因不影响焦油沉积、焦油是吸烟到癌症的唯一中介、焦油可测量)使得科学家和政策制定者能够公开讨论这些假设的有效性。这正是David Freedman批评的核心——前门调整的有效性依赖于图中的假设是否与现实相符。

5.4 干预层级的认识论意义

从认识论角度看,本章揭示了一个深刻的不对称性:反事实(第三层级)蕴含干预的信息,但干预信息不能从纯观测数据中读取。do-微积分告诉我们如何将干预语言翻译为观测语言,但前提是因果图准确反映了真实的因果结构。


六、挑战与开放问题

6.1 假设的不可检验性

前门调整和工具变量法的一个根本局限在于:图中的关键假设(如"无直接箭头")无法从数据中验证。Freedman的批评切中要害:如果吸烟基因影响焦油沉积,则前门公式失效;如果工具变量与混杂因子相关,则工具变量法给出错误结果。因果推断永远需要超越数据的实质性假设。

6.2 do-微积分的计算复杂度

虽然Shpitser的算法在多项式时间内可判定识别性,但找到一个具体的推导序列本身是另一个问题——do-微积分是验证工具而非发现工具。在几何证明中,选择哪条辅助线类似于在迷宫中选择哪条岔路,需要"数学眼镜"(直觉和经验)。

6.3 外部有效性与迁移学习

Bareinboim和Pearl(2015)在《美国国家科学院院刊》发表的论文解决了因果效应的迁移问题:如何在源环境中发现的因果效应帮助估计目标环境中的效应。这对于荟萃分析和政策推广具有重要意义,但假设两个环境可以用同一个因果图描述。

6.4 非线性模型下的工具变量

本章讨论的工具变量公式主要针对线性模型。对于非线性模型,通常需要单调性假设才能获得点估计(如LATE,局部平均处理效应)。当数据违背这些假设时,工具变量法只能给出边界范围,而非精确估计。

6.5 Mendelian随机化的局限性

即使基因是完美的随机化工具(如在胆固醇研究中),实际干预的目标可能与基因变异的效应不同。基因影响终身LDL水平,而他汀类药物仅在服药期间降低LDL。这种"操作变量"与"目标变量"之间的不一致可能导致对短期干预效应的过度估计。


七、个人反思与批判性分析

7.1 Pearl的研究风格与学术传承

本章最引人入胜的部分之一是Pearl对学术史的叙述。从Thomas Verma(16岁的高中生将未解猜想当作作业完成)到Dan Geiger(被许诺"快速博士"后真的做到了),从游泳池边的偶然对话(Jin Tian从物理转行CS)到Ilya Shpitser背着导师完成完备性证明,Pearl以近乎虔诚的态度描绘了do-微积分的"织锦"是如何历经二十余年、由众多学者的手共同编织而成。这既是对学术合作的颂歌,也暗示了重大理论突破往往依赖"关键时刻的合适人才"。

7.2 从John Snow到现代流行病学的启示

John Snow的霍乱研究展示了"鞋底研究"(shoe-leather research)的力量——通过细致的实地调查发现关键的工具变量(水公司),从而在不知道混杂因素的情况下确定了因果效应。这一历史案例提醒我们:因果推断的核心不仅在于统计方法,更在于对领域知识的深入理解和实地调查

7.3 对统计方法的批判性审视

Pearl对"回归系数本身不携带因果信息"的反复强调具有重要的方法论意义。几十年来,社会科学和行为科学研究者习惯于将偏回归系数解读为因果效应,这种做法在缺乏充分因果图支撑时是危险的。Pearl的批评呼应了统计学家Harold Jeffreys和R.A. Fisher等人的担忧:没有随机化或因果图,因果声称永远是可疑的

7.4 do-微积分的哲学意涵

Pearl将do-微积分比作希帕克斯用阴影计算金字塔高度的故事,这一类比揭示了因果推理的"唯心"本质——通过纯数学符号操作即可预测物理干预的结果。这令人振奋,但也令人不安:如果我们的因果图是错误的,数学将忠实地给我们错误的答案。因果图不是从数据中发现的,而是由领域知识构建的——数据只能用来验证模型的预测,但不能告诉你模型本身

7.5 对未来研究的思考

本章结尾提到的开放问题——包括反事实、一般化、缺失数据、机器学习等领域的进展——表明do-微积分不是终点而是起点。特别是将因果思维与深度学习结合的可能性(Pearl的《为什么》第二版中有所涉及)代表了未来十年最具潜力的研究方向。


公式汇总表

编号 公式名称 公式内容 适用条件
(7.1) 前门调整公式 \(P(Y \mid do(X)) = \sum_{z} P(Z = z \mid X) \sum_{x} P(Y \mid X = x, Z = z) P(X = x)\) 前门准则满足:无未观测混杂影响M
(7.2) 后门调整公式 \(P(Y \mid do(X)) = \sum_{z} P(Y \mid X, Z = z) P(Z = z)\) 后门准则满足:Z阻断所有后门路径
B1 do-微积分规则1 \(P(Y \mid do(X), Z, W) = P(Y \mid do(X), Z)\) Z阻断所有W到Y的路径(删除X的进入箭头后)
B2 do-微积分规则2 \(P(Y \mid do(X), Z) = P(Y \mid X, Z)\) Z满足后门准则
B3 do-微积分规则3 \(P(Y \mid do(X)) = P(Y)\) X与Y之间无有向因果路径
IV 线性工具变量公式 \(b = \frac{r_{ZY}}{r_{ZX}}\) 线性模型,Z是有效工具变量
LATE 局部平均处理效应 依从者亚组的处理效应 单调性假设

参考文献

  • Pearl, J. (2018). The Book of Why: The New Science of Cause and Effect. Chapter 7.
  • Glynn, A. & Kashin, K. (2014). Front-door versus back-door adjustment with unmeasured confounding. Working Paper.
  • Huang, Y. & Valtorta, M. (2006). Provenance: The completeness of do-calculus. UAI 2006.
  • Shpitser, I. & Pearl, J. (2006). Identification of conditional causal effects. UAI 2006.
  • Bareinboim, E. & Pearl, J. (2015). Causal transportability: A formal approach to the problem. PNAS.