因果推断第六章:辛普森悖论、混杂与可崩塌性
原文出处:Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press. Chapter 6.
第一部分:章节概述
本章系统性地探讨了因果推断中最为核心且棘手的问题之一——混杂(confounding)。作者首先借助辛普森悖论这一经典案例,揭示了统计思维与因果思维之间深刻的哲学分歧;随后逐步推进至混杂的正式定义、统计判据的局限性,以及"稳定无偏"这一关键概念的提出;最终厘清了混杂、可崩塌性(collapsibility)与可交换性(exchangeability)三者之间的关系。
第6.1节以"一个非悖论的故事"开篇,通过药物试验的经典案例说明:辛普森逆转现象本质上是因果概念,而非纯粹的统计现象。作者指出,长期以来统计学界回避使用因果语言的习惯,导致一代统计学家在面对辛普森悖论时陷入"统计之痛"——他们能够感受到数据中的反常,却缺乏表达这种反常的数学工具。6.1.3节通过 Lindley 与 Novick 的研究进一步表明,即便是最接近因果概念的可交换性方法,也必须以对因果机制的理解为前提。定理6.1.1(确定事物原理,Sure-Thing Principle)证明:当行动C在每个子群体中都增加事件E的概率时,只要该行动不改变子群体的分布,C也必然使整个总体的概率增加。
第6.2节转入混杂的正式定义讨论。定义6.2.1从因果角度定义"无混杂":\(P(y|do(x)) = P(y|x)\);定义6.2.2则给出基于统计关联的判据(关联判据):若变量Z未受X影响且满足要么Z与X无关联(U1),要么Z与Y在给定X条件下无关联(U2),则X和Y无混杂。第6.3节通过四个反例证明关联判据在充分性与必要性上的双重失败:个体变量可能联合混杂但单独不满足任何条件(边际失败); barren proxy(贫瘠代理变量)虽然与X和Y都关联却不是混杂因素;以及完美的参数巧合可能产生"偶发性无偏"。
第6.4节是本章的理论核心:引入"稳定无偏"(stable unbiasedness)概念,将无混杂重新定义为在因果图结构的任意参数化下均成立的条件。定理6.4.3证明:在无环因果图中,X和Y稳定无偏当且仅当它们没有共同祖先(共同原因原则)。这将混杂的判断完全置于图形拓扑层面,摆脱了对具体参数值的依赖。定理6.4.4进一步表明,即便不知道完整因果图,只要找到一个违反U1和U2的变量Z(满足Z不受X影响但可能影响Y),就可以判定(X,Y)非稳定无偏——这提供了无需闭合世界假设的实用检验方法。
第6.5节厘清三对重要区分:混杂与可崩塌性(Corollary 6.5.2证明稳定无偏蕴含可崩塌性,但两者一般不等价);混杂与混杂变量(单个变量可能不满足关联条件但仍属有效充分集);结构分析与可交换性分析(后者依赖人类对因果机制的判断,而前者将因果过程本身形式化)。
第二部分:关键问题与研究动机
2.1 核心问题:混杂的定义与检验
本书的核心目标之一是将因果问题化约为数学程序。混杂是阻碍从观测数据推断因果关系的最根本障碍之一。然而,"效应"与"影响"本身是因果概念,无法在标准概率论的框架内被完全表达。因此,能否用纯统计判据取代因果定义来检测混杂,成为本章首要回答的问题。
2.2 为何统计判据长期占据主流
流行病学、生物统计学和社会科学长期使用关联判据(U1/U2)来判定混杂,原因有三:(1)统计判据可以用纯数学形式表达,无需引入未定义清楚的"因果"概念;(2)关联判据可能导向实用的混杂检验,从而提醒研究者需要调整;(3)研究者面临"闭合世界"困境——无法穷尽所有潜在混杂变量。
2.3 辛普森悖论的历史教训
Pearl 详细回顾了辛普森悖论的百年演变(从 Pearson 1899到Lindley和Novick 1981),揭示了一个深刻的历史讽刺:统计学家明明感受到了悖论的因果本质,却被学术文化禁止使用因果语言,被数学工具限制无法表达因果关系。结果是,众多研究者将辛普森逆转视为"邪恶的数据特征"加以规避,而非作为因果直觉的信号。这一"统计之痛"是本章写作的重要动机之一。
2.4 稳定无偏的思想动机
Example 6.3.3中的偶发抵消现象(\(r = \beta\gamma\)时回归系数恰好等于因果效应)揭示了纯因果定义的脆弱性:这种无偏依赖于精确的参数巧合,在真实世界中几乎无法重现。因此,研究者真正关心的应该是稳定无偏——即在因果图结构保持不变、参数任意变化时仍然成立的无偏性。这一区分解释了为何流行病学实践中的统计判据虽然理论上不完备,却在大多数情况下有效:因为它们捕捉的正是稳定无偏的直觉。
第三部分:主要公式与推导
3.1 辛普森悖论的基本不等式
原始统计悖论可用三个不等式描述(原文方程6.1-6.3):
因果解读下,式(6.2)-(6.3)表示药物C对男性和女性均有害,但式(6.1)却显示药物整体有益——这正是悖论所在。
3.2 do算子与因果条件
区分"seeing"与"doing"的核心是do算子。对应的因果陈述为:
式(6.4)-(6.6)在因果语义下同样不相容。
3.3 定理6.1.1(确定事物原理)
定理:如果行动C在不改变子群体分布的条件下增加每个子群体中E的概率,则C也增加整个总体中E的概率。
关键假设:\(P(F|do(C)) = P(F|do(\neg C)) = P(F)\),即行动不影响子群体构成。
证明:
展开\(P(E|do(C))\):
同理对\(P(E|do(\neg C))\)展开。由于式(6.4)-(6.5)中每一项均有\(P(E|do(C),\cdot) < P(E|do(\neg C),\cdot)\),综合得:
故逆转在因果语义下不可能。\(\square\)
3.4 无混杂的因果定义
定义6.2.1(无混杂,因果定义):
设M为数据生成过程对应的因果模型。X和Y在M中无混杂,当且仅当:
此时称\(P(y|x)\)为无偏的。
3.5 调整公式
若一组变量S满足后门准则(Definition 3.3.1),则:
这正是因果推断的核心计算工具。
3.6 无混杂的关联判据
定义6.2.2(无混杂,关联判据):
设T为不受X影响的所有变量集合。如果T中每个成员Z至少满足以下条件之一:
- (U1) Z与X无关联:\(P(x|z) = P(x)\)
- (U2) Z与Y在给定X条件下无关联:\(P(y|z,x) = P(y|x)\)
则X和Y在T存在时无混杂。
3.7 线性模型中的参数抵消
Example 6.3.3的线性模型(方程6.11-6.12):
其中\(e_1\)和\(e_2\)相关(\(cov(e_1,e_2)=r\)),Z为外生变量。回归得:
当\(r = -\alpha\gamma\)时,\(\rho_{YX} = \beta\),效应无偏——这是偶发性无偏而非稳定无偏。
3.8 稳定无偏的形式定义
定义6.4.1(稳定无偏):
设A为关于数据生成过程的一组假设,\(\mathcal{C}_A\)为满足A的因果模型类。如果对\(\mathcal{C}_A\)中每个模型M均有\(P(y|do(x)) = P(y|x)\),则称X对Y的效应估计在给定A下稳定无偏,对应的(X,Y)对在给定A下稳定无混杂。
定义6.4.2(结构稳定无混杂):
设\(\mathcal{A}_D\)为嵌入因果图D的假设。若\(P(y|do(x)) = P(y|x)\)对D的任意参数化均成立,则X和Y在给定\(\mathcal{A}_D\)下结构稳定无混杂。
3.9 定理6.4.3(共同原因原则)
定理:设\(\mathcal{A}_D\)为嵌入无环因果图D的假设。X和Y在给定\(\mathcal{A}_D\)下稳定无混杂,当且仅当X和Y在D中没有共同祖先。
证明思路:"如果"部分由后门准则的有效性保证(定理3.3.2)。"仅当"部分需构造具体模型:只要X和Y有共同祖先,就可以利用路径系数(wright法则)构造违背(6.10)的情形。\(\square\)
3.10 稳定无混杂的操作检验
定理6.4.4(稳定无混杂判据):
设\(A_Z\)为假设:(i)数据由某(未指明)无环模型M生成;(ii)Z是M中不受X影响但可能影响Y的变量。如果Z同时违背U1和U2,则(X,Y)在给定\(A_Z\)下非稳定无混杂。
含义:只需找到一个违反关联判据的变量Z,即可证明非稳定无偏——这提供了不依赖闭合世界假设的实用检验。
3.11 可崩塌性定义
定义6.5.1(可崩塌性):
设\(g[P(x,y)]\)为衡量Y与X关联性的任意泛函。g在变量Z上可崩塌,当且仅当:
3.12 推论6.5.2(稳定无偏蕴含可崩塌性)
推论:设Z为不受X影响且可能影响Y的变量,\(g[P(x,y)]\)为任意线性泛函。若g在Z上不可崩塌,则X和Y非稳定无混杂。
此推论为"变化参数法"(change-in-parameter method)提供了理论依据:该方法将Z标记为混杂变量的做法,实际上源于对稳定无混杂条件的直觉追求。
公式汇总表
| 编号 | 公式名称 | 表达式 | 所在位置 |
|---|---|---|---|
| (6.1)-(6.3) | 辛普森悖论不等式 | \(P(E\|C) > P(E\|\neg C)\)等 | §6.1.1 |
| (6.4)-(6.5) | 因果条件下的药物效应 | \(P(E\|do(C),F) < P(E\|do(\neg C),F)\)等 | §6.1.4 |
| (6.6) | 因果总体效应 | \(P(E\|do(C)) > P(E\|do(\neg C))\) | §6.1.4 |
| (6.10) | 无混杂的因果定义 | \(P(y\|do(x)) = P(y\|x)\) | 定义6.2.1 |
| (3.19) | 调整公式 | \(P(y\|do(x)) = \sum_s P(y\|x,s)P(s)\) | §3(回顾) |
| (U1)/(U2) | 关联无混杂条件 | \(P(x\|z)=P(x)\) 或 \(P(y\|z,x)=P(y\|x)\) | 定义6.2.2 |
| (6.11)-(6.12) | 线性模型方程 | \(X = \alpha Z + e_1\), \(Y = \beta X + \gamma Z + e_2\) | Example 6.3.3 |
| (6.13) | 回归系数抵消 | \(\rho_{YX} = \beta + r + \alpha\gamma\) | Example 6.3.3 |
| 定义6.4.1 | 稳定无偏 | \(P(y\|do(x))=P(y\|x)\)对\(\mathcal{C}_A\)中所有模型成立 | §6.4.2 |
| 定义6.4.2 | 结构稳定无混杂 | \(P(y\|do(x))=P(y\|x)\)对图的任意参数化成立 | §6.4.2 |
| 定理6.4.3 | 共同原因原则 | X,Y稳定无混杂 \(\Leftrightarrow\) 无共同祖先 | §6.4.2 |
| 定理6.4.4 | 稳定无混杂判据 | Z违反U1且违反U2 \(\Rightarrow\) 非稳定无混杂 | §6.4.3 |
| (6.14) | 可崩塌性定义 | \(E_z \\, g[P(x,y\|z)] = g[P(x,y)]\) | 定义6.5.1 |
| 推论6.5.2 | 稳定无偏蕴含可崩塌性 | 非可崩塌 \(\Rightarrow\) 非稳定无混杂 | §6.5.1 |
第四部分:关键算法与建模方法
4.1 混杂判定的图形方法——后门准则
Chapter 3引入的后门准则(back-door criterion)是判定无混杂的核心算法。其核心思想是:若一组变量Z能够"截断"(block)所有X与Y之间的后门路径(即指向X的路径),则通过调整Z可以移除混杂。
在无环因果图中,后门准则为稳定无混杂提供了充分必要的图形条件。这意味着,在给定因果图的拓扑结构后,判定一对变量是否无混杂完全不需要任何统计计算——只需检查图中是否存在共同祖先或未阻塞的后门路径。
4.2 稳定无混杂的d-分离检验
在缺乏完整因果图时,定理6.4.4提供了一个部分可操作的统计检验:
- 识别一个变量Z,其满足:不受X影响(因果判断),可能影响Y(因果判断);
- 检验Z是否违反关联条件U1(Z与X独立)和U2(Z与Y在给定X下独立);
- 若Z同时违反U1和U2,则(X,Y)非稳定无混杂。
这一检验之所以"部分"操作,是因为步骤1仍需因果知识(即Z不受X影响),但步骤2完全基于统计检验。注意:该检验是单向的——通过不能证明无混杂,失败则可证明有混杂。
4.3 可崩塌性检验
可崩塌性(Definition 6.5.1)提供了一种变化参数法(change-in-parameter method)来间接检测混杂:比较整体关联度量\(g[P(x,y)]\)与Z条件化的加权平均\(E_z[g[P(x,y|z)]]\)。若二者不等,则表明存在非可崩塌性。
根据推论6.5.2,对于线性泛函g,非可崩塌意味着非稳定无混杂。这为流行病学中"调整后效应与 Crude 效应不同则存在混杂"的常用做法提供了理论支撑——但需要注意,这只是必要条件而非充分条件。
4.4 充分集的判定
Section 6.5.2涉及有效充分集(sufficient set)的判定。若S是充分集,则S作为整体(复合变量)必须与X关联且在给定X条件下与Y关联。这一判据提供了对候选充分集的必要统计检验,但同样不构成充分条件。
4.5 结构方程模型(SEM)的核心角色
贯穿全章的核心方法论工具是结构方程模型(SEM)。Pearl 强调,do算子通过"方程删除"(equation deletion)在SEM中获得了严格的数学定义:
- \(do(X=x)\):将模型中X的方程替换为\(X=x\),其他方程保持不变
- \(Y(x,u)\):在干预\(do(X=x)\)下,潜在结果变量取值为Y的counterfactual
这使得\(P(y|do(x))\)的计算成为纯数学操作,而非需要直觉判断的概念。
第五部分:主要结论
5.1 辛普森悖论的因果本质
辛普森逆转的根本原因在于混淆了"seeing"与"doing"——即混淆了作为证据的条件概率与作为干预条件的do概率。药物在每个子群体中对男性和女性均有害,却在整个总体中显得有益,原因在于存在混杂变量(性别)同时影响治疗选择和康复。统计学家长期无法解决此悖论,根本原因是缺乏do算子这样的形式化因果语言。
5.2 无统计方法能完全检验混杂
核心结论(第6.2-6.3节):不存在任何统计判据能够充分且必要地判定因果无混杂。其根本原因在于:
- 闭合世界假设不可满足:实际研究中永远无法确保已枚举所有潜在混杂变量;
- 贫瘠代理问题:与X和Y均关联的变量不一定就是混杂因素;
- 偶发性抵消:精确的参数巧合可以在有混杂存在的模型中产生无偏估计。
5.3 稳定无偏是实践中的正确目标
第6.4节证明,将无混杂的定义从"特定参数值下成立"改为"结构条件允许的所有参数化下均成立",可以恢复无混杂概念的实用性。定理6.4.3(共同原因原则)将稳定无混杂与图形结构直接挂钩:只要X和Y没有共同祖先(在图中任何参数化下均成立),它们就是稳定无混杂的。
5.4 关联判据对稳定无偏的有限覆盖
定理6.4.4表明,传统的关联判据(U1/U2)虽然不能保证稳定无偏,但失败这些判据的变量可以否定稳定无偏。这解释了为何这些不完美的判据在流行病学实践中如此持久——它们捕捉的正是对稳定性的直觉追求。
5.5 混杂、可崩塌性与可交换性三者有本质区别
第6.5节的核心结论是:非可崩塌性既不充分也不必要于混杂。即使是线性泛函(如风险差异),在图6.3的模型中也可出现非可崩塌但无混杂的情形。结构分析相比可交换性分析的优势在于:因果假设以图形形式明确表达,counterfactual tables从模型推导而非作为原始概念引入,从而避免了无限表格构造的组合爆炸。
第六部分:挑战与开放问题
6.1 闭合世界假设的不可避免性
无论使用何种判据,混杂的判定都需要关于"所有相关变量"的知识。实际问题中,研究者永远无法确信已识别了所有潜在混杂因素。这一根本局限在Theorem 6.4.4中以弱假设(\(A_Z\)只要求知道单个变量Z)部分缓解,但无法完全消除。
6.2 时间维度与动态混杂
本章主要讨论静态场景(单次治疗/结果),未涉及时间序列中的动态混杂问题。当治疗随时间演化、暴露历史影响结果时,需要更复杂的时序因果模型(如动态治疗方案)来处理新的混杂来源。
6.3 未测量混杂的识别
本章聚焦于已知混杂变量的处理,但未系统讨论未测量混杂的检测与边界估计。E-values 等方法虽然可以估计未测量混杂的最小强度,但需要额外的假设(如_effect modifier*的存在)。
6.4 确定性关系下的交集性质失效
Section 6.5.2末尾指出,在严格正概率分布下成立的"交集"(intersection)性质在确定性关系中失效。例如,当X和Y均与Z有确定性的函数关系时,Z可能不满足Rothman-Greenland条件,即使它是有效的充分集。这意味着流行病学中常用的简约判据在复杂数据环境中可能产生误导。
6.5 高维协变量场景的实用性
当协变量数量很大时,基于图形的后门准则在实际应用中面临挑战:研究者可能不确定完整的因果图结构,部分变量间的关系未知。多元自适应回归样条(MARS)、倾向评分(propensity score)等方法试图绕过图形构建,但均引入新的假设。如何在部分已知因果结构的现实中高效运用这些方法,仍是活跃的研究领域。
6.6 非线性与非参数效应的稳定无偏
本章主要分析在任意参数化下都成立的稳定性条件。对于非线性效应(如中位数治疗效果、因果中介分析中的交互效应),如何在保持稳定性的同时允许任意非线性函数形式,是一个尚未完全解决的问题。
6.7 稳健性估计的量化
第5.6.3节(第二版附录)提到 k-识别(k-identifiable)概念:若同一参数存在k个不同估计量且数据支持其相等,则结论更稳健。但在实际研究中,如何系统地枚举所有可能的识别假设并量化稳健性,尚无统一方法。
第七部分:个人反思与批判性分析
7.1 Pearl的方法论立场:因果作为"一级扩展"
本章最核心的方法论贡献,是将do算子作为概率论的因果扩展正式引入统计分析。Pearl 多次强调,概率论处理"seeing",do算子处理"doing",二者是互补而非替代关系。这一立场与 Neyman-Rubin 的潜在结果框架形成有趣对照:两者在形式上等价(do算子可定义潜在结果\(Y(x)\)),但Pearl的图形化方法在透明性和可操作性上更胜一筹。
笔者认为,这一框架最深刻的价值在于将"因果假设"从隐含的直觉变为显式的图形陈述。传统统计方法要求研究者对混杂变量做"直觉判断",却无法审查这些判断的逻辑结构;而图形方法将直觉形式化为拓扑约束,使得辩论可以在数学层面进行,而非停留在语义层面。
7.2 对"无统计测试"结论的深度反思
Pearl 在第6.2节断言"不存在统计测试能完全检验混杂",初读之下令人不安——如果连理论上都没有完美判据,实践者该怎么办?但仔细品味,这一结论实际上是对闭合世界假设不可企及性的承认,而非对实践的否定。
笔者将其理解为:统计测试可以验证必要条件,但永远无法验证充分条件。这与科学哲学中"验证假说永远不如证伪假说有力"的波普尔式洞见一脉相承。Theorem 6.4.4的艺术在于:它利用这一非对称性——关联判据的失败可以否定稳定无偏(证伪),而成功则无法证明无偏(无法验证充分性)。这种不对称性是所有观测研究方法的共同约束。
7.3 稳定无偏概念的哲学意义
Pearl 提出的"稳定无偏"概念具有深刻的哲学意涵。它本质上是对奥卡姆剃刀原则的量化表述:在所有与已知因果结构一致的参数化中,无偏性如果总是成立,则该无偏性"不依赖于任何特定的参数巧合"。这意味着因果结论的可重复性(或缺乏),不是数据的函数,而是假设结构的函数。
这一认识对元分析(meta-analysis)和效果复制研究具有重要启示:如果一项研究声称发现因果效应,而另一项类似研究未能复制,其原因未必是"第一项研究有偶然偏误",也可能是"两项研究隐含的因果假设结构不同"。
7.4 统计学家文化局限的历史批评
Pearl 对统计学界回避因果语言的批评(Section 6.1.2)既尖锐又令人信服。他指出 Pearson 的"相关不是因果"运动在哲学上虽可理解,但在实践上"关闭了因果推理的大门"。这种文化禁忌导致的后果是:一方面统计学家在数据分析中实际上不断使用隐性因果假设,另一方面他们缺乏表达这些假设的形式语言。
笔者认为,这一批评在今天仍有强烈的现实意义。即使在2020年代的机器学习时代,许多"因果发现"方法(PC算法、FCI等)本质上仍是Pearl框架的延伸,而大量数据科学实践仍以"相关分析代替因果分析"为默认选项。Pearl 在1980年代的工作之所以革命性,正是因为它打破了这一文化枷锁。
7.5 可崩塌性作为"代理判据"的局限性
Section 6.5.1揭示的非可崩塌性与混杂的不等价性(Example 6.3显示即使对线性风险差异,两者也可分离)是一个重要但常被忽视的细微差别。流行病学中使用"调整后效应变化=存在混杂"的实践,虽然有Corollary 6.5.2的理论支撑,但研究者必须警惕:效应变化可能既源于混杂,也源于可崩塌性破坏——两者是不同的现象。
这意味着"change-in-parameter"方法是一个过于宽松的混杂指示器:它会产生假阳性(将非可崩塌性误判为混杂)。正确使用这一方法,需要首先确信所用的效应度量在感兴趣的图结构下是可崩塌的。
7.6 结构方法对因果推理民主化的贡献
笔者最欣赏本章的一点是Pearl反复强调的工具实用性:即使研究者不掌握高深的因果理论,只要会画因果图并应用后门准则,也可以进行专业的因果分析。这种将复杂理论工具化、界面化的努力,是统计理论学家少有的关怀。
反观可交换性方法(Greenland-Robins),其counterfactual contingency tables在概念上虽然优雅,但如Pearl在第6.5.3节末尾所言,"在简单问题中尚可构造,在多协变量场景中则成为噩梦"。这提示我们,好的理论不仅要正确,还要可操作。Pearl的图形方法通过将因果假设转移到图形拓扑,实际上降低了因果推理的认知门槛——因为图形是人类直觉更容易把握的表示形式。
7.7 对本书后续内容的铺垫
从全书结构看,本章是"理论方法论"与"实践应用"之间的关键桥梁。第3章建立了do算子和后门准则的数学基础,本章则将这些工具应用于流行病学和方法论文献中最核心的概念——混杂——并展示了图形方法的解释力与精确性。值得注意的是,本章讨论的"线性模型中的偶发抵消"问题,直接呼应了第5章(结构模型在社会科学和经济学的应用)中计量经济学传统的关切,说明Pearl对不同学科传统的批评性吸收是本书的内在统一性来源之一。
本笔记由AI辅助阅读生成,严格遵循7部分SOP结构。原文:Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.