第八章：反事实 — 挖掘本可能发生的世界

一、章节概述与背景

本章是"因果关系阶梯"第三级（反事实）的核心章节，系统探讨了因果推理的最高层次——反事实推断。与前两章主要讨论人群层面的平均因果效应不同，本章聚焦于个体层面的因果推理，即对特定个体在假设性情景下的结果进行预测。反事实问题是人类思维的本质特征，它使我们能够思考"如果当初……会怎样"，而这种能力将人类与其他生物区分开来。

本章首先从历史视角回顾了反事实推理的思想渊源：从修昔底德的海啸分析、亚伯拉罕与上帝的对话、亚里士多德的因果分类，到休谟的两次因果定义和大卫·刘易斯的可能世界理论。这些思想家在不同程度上触及了反事实的核心——"如果没有A，B就不会发生"。

随后，本章详细介绍了两种主要的因果推理框架：潜在结果框架（鲁宾因果模型）和结构因果模型（SCMs）。Pearl通过具体的薪水-教育-经验例子，展示了这两种框架在处理反事实问题上的差异。潜在结果框架面临"因果推断的根本问题"——我们永远无法在同一个体身上观察到多个潜在结果；而结构因果模型通过"三步程序"（推理→行动→预测）算法化地解决了这一问题。

本章还探讨了反事实在法律（但若测试、近因 doctrine）和气候变化归因中的应用，展示了反事实思维在现实世界中的重要价值。最后，本章总结了反事实的三大查询类型：必要因果（PN）、充分因果（PS）以及直接与间接效应。

二、关键问题与研究动机

2.1 反事实思维的历史追问

公元前426年，希腊历史学家修昔底德在描述一场海啸时展现了朴素但精准的反事实思维："没有地震，我不知道这样的事故怎么可能发生。"修昔底德明确表达了必要因果（but-for causation）的思想：正是地震导致了海啸，没有地震就没有海啸。这一判断将地震从一个普通的"先行事件"提升为真正的"原因"。

《创世记》中记载了亚伯拉罕与上帝关于所多玛城命运的对话。亚伯拉罕不断追问："如果有50个义人，你会毁灭这座城市吗？如果只有45个、40个、30个、10个呢？"Pearl认为，亚伯拉罕并非在质疑上帝的全知全能，而是在探索因果关系的剂量-响应曲线或阈值效应——这是一个现代科学家会提出的问题。

亚里士多德建立了包括"质料因"、"形式因"、"动力因"和"目的因"在内的完整因果分类体系。然而，这些分类都缺乏反事实的维度，因此无法达到修昔底德海啸分析那种清晰的因果判断。

2.2 休谟的两次因果定义

大卫·休谟在1739年的《人性论》中提出了著名的"规律性"定义："火焰总是伴随着热量，因此火焰是原因，热量是结果。"这一定义仅依赖于观察到的规律（第一级因果思维），排除了鸡鸣导致日出这类荒谬结论的困难——因为鸡不叫太阳也会升起。

1748年，休谟意识到规律性定义的不足，添加了反事实定义："如果第一个对象不存在，第二个对象永远不会存在。"这第二个定义明确处于第三级因果思维层次。反事实无法被观察，只能被想象。

2.3 大卫·刘易斯的可能世界理论

刘易斯在1973年的著作《反事实》中，主张将"A导致B"理解为"如果没有A，B就不会发生"。他进一步提出，我们通过比较现实世界与"最相似的可能世界"来评估反事实陈述。

关键洞见： - 我们不需要争论这些可能世界是否物理存在 - 人类能够生成头脑中的替代世界，并判断哪个世界"更接近"现实 - 这种一致性源于人类共享相同的因果心理模型

Pearl的补充观点：结构因果模型通过"最小修改"因果图来找到最相似的可能世界，这与刘易斯的思想高度契合。人类大脑可能使用类似于结构模型的"快捷方式"来管理数量庞大的可能世界。

2.4 潜在结果框架的起源

1923年，波兰统计学家杰西·奈曼（JERZY NEYMAN）在硕士论文中首次提出潜在结果概念，用于农业实验。他用下标表示"给定品种在相应地块上的未知潜在产量"。唐纳德·鲁宾（DONALD RUBIN）在1970年代中期重新发现并普及了这一框架，使因果推理重新进入统计学的主流视野。

2.5 因果推断的根本问题

统计学家保罗·霍兰德称之为"因果推断的根本问题"：我们永远无法在同一个体身上观察到多个潜在结果。以薪水数据为例（表8.1）：

个体	经验(EX)	教育(ED)	薪水(S)	S₀	S₁	S₂
Alice	6	0 (高中)	$80,000	?	?	?

表中满是问号——我们只能观察到个体实际得到的结果，无法观察到如果他们做了不同选择会发生什么。

2.6 匹配法与线性回归的局限

一种常见策略是匹配法：寻找在所有变量上匹配良好的个体配对，然后假设他们的潜在结果相同。例如，Bert和Caroline在经验上完全匹配： - 如果Caroline只有高中学历，她的薪水会等于Bert的$92,500 - 如果Bert有研究生学历，他的薪水会等于Caroline的$97,000

匹配法的问题：这种方法假设教育不影响经验，但实际上教育会影响经验（大学生需要4年学习时间）。如果Caroline只有高中学历，她本可以在这4年中获得更多经验。因此，匹配在经验上是错误的策略——这是一个中介物与混淆物的区别。

使用线性回归：$S = \$65,000 + 2,500 \times EX + 5,000 \times ED$。对于Alice如果拥有大学学历会赚多少，回归分析给出：$\$65,000 + \$2,500 \times 6 + \$5,000 \times 1 = \$85,000$。根本缺陷：回归分析是"数据驱动"而非"模型驱动"。回归方程本身不包含关于因果方向的信息（教育→经验→薪水 vs. 经验→教育→薪水）。正如Pearl在前几章强调的，回归是"因果盲"的。

三、公式推导与理论框架

3.1 因果图表示

首先绘制因果图：

教育(ED) → 经验(EX) → 薪水(S)
           ↑
           └──────────┘

这张图明确表示： - 教育导致经验（更多的教育需要更多时间，减少可用于积累经验的时间） - 薪水聆听教育和经验双方

关键区别：在结构模型中，我们承诺这个因果方向，这与回归分析不同。

3.2 结构方程

结构方程（区别于回归方程！）：

\[S = \$65,000 + 2,500 \times EX + 5,000 \times ED + U_S \qquad(8.2)\]

\[EX = 10 – 4 \times ED + U_{EX} \qquad(8.3)\]

结构方程 vs 回归方程的本质区别： - 回归方程中，我们可以任意选择将S回归到EX和ED上 - 结构方程反映分析师的信念：S真正聆听EX和ED，而ED不受S影响 - 缺失的方程$ED = f_{ED}(EX, S, ...)$表明ED不受这些变量影响 - 这种承诺赋予了结构方程支持反事实的能力

3.3 三步程序计算反事实

对于问题"如果Alice拥有大学学历，她的薪水会是多少？"

第一步（推理/Abduction）：估计Alice的特异性因素 - 观察值：EX(Alice) = 6，ED(Alice) = 0 - 代入方程： - $U_S(Alice) = \$80,000 - \$65,000 - \$2,500 \times 6 - \$5,000 \times 0 = \$1,000$ - $U_{EX}(Alice) = 6 - 10 + 4 \times 0 = -4$

第二步（行动/Action）：应用do算子 - 假设ED(Alice) = 1（大学学历） - 删除指向ED的箭头（本例中无需删除）

第三步（预测/Prediction）：计算新结果 - 先用修改后的方程计算新的经验： - $EX' = 10 - 4 \times 1 + (-4) = 2$年 - 再计算薪水： - $S_1(Alice) = \$65,000 + \$2,500 \times 2 + \$5,000 \times 1 + \$1,000 = \$76,000$

3.4 因果推断第一定律

Pearl称此为"因果推断第一定律"：

\[Y_x(u) = Y_{M_x}(u)\]

这表示：潜在结果$Y_x(u)$可以通过在模型$M_x$（即删除指向X的箭头后的模型）中计算Y(u)来获得。

3.5 必要因果与充分因果

必要因果（PN）的符号表示：

\[PN = P(Y_{X=0} = 0 | X=1, Y=1)\]

即：给定被告实施了行为（X=1）且受害者死亡（Y=1），受害者本可以活着（Y=0）的概率。

充分因果的定义：

\[PS = P(Y_{X=1} = 1 | X=0, Y=0)\]

在X=0且Y=0的世界中，施加处理X=1会导致Y=1的概率。

3.6 可归因风险分数（FAR）

Myles Allen等人提出使用可归因风险分数：

\[FAR = 1 - p_0 / p_1\]

其中$p_0$是气候变化前热浪的概率，$p_1$是气候变化后热浪的概率。

3.7 鲁宾模型的关键假设

鲁宾模型要求的三个假设：

SUTVA（稳定单位处理值假设）：每个个体的处理效果不受其他人处理分配的影响
一致性：实际接受处理并康复的个体，在实验设计中接受相同处理也会康复
不可知性（Ignorability）：给定混淆变量Z，潜在结果Yx与实际处理X独立

3.8 因果图的不可知性检验

使用因果图，不可知性检验变得透明：

"要确定X相对于Y是否可忽略（给定Z），只需检验Z是否阻断了X和Y之间的所有后门路径，且Z中没有任何成员是X的后代。"

以我们的例子： - 经验(EX)阻断了所有后门路径（实际上没有后门路径） - 但经验是教育的后代，因此教育相对于薪水不是可忽略的

四、算法方法与实践应用

4.1 三步程序的算法化流程

结构因果模型通过明确的算法步骤处理反事实查询：

推理（Abduction）：根据观察数据估计个体的特异性因素（外生变量U的值）
行动（Action）：应用do算子，即删除指向处理变量X的所有箭头，并设置X为假设值
预测（Prediction）：使用修改后的模型和估计的U值，计算结果变量Y的新值

这一程序将"反事实是什么"这个问题转化为一个可计算的算法问题。

4.2 因果图的可测试性

因果图可以进行模型兼容性检验：如果图中通过Z阻断了X和Y之间的所有路径，则数据中X和Y应该在给定Z的条件下独立。这利用了d-分离性质。潜在结果框架缺乏这种数学工具来揭示模型所隐含的独立性。

4.3 反事实在法律中的应用："但若"因果关系

《模型刑法典》对"but-for"测试的定义：

"行为是结果的原因，当且仅当：没有该行为，结果就不会发生。"

经典案例分析：""坠落钢琴"场景"——被告开枪射向受害者但未击中，受害者在逃跑过程中被坠落的钢琴砸死。

但若测试会判定被告有罪（没有逃跑就不会在钢琴下）
直觉告诉我们被告无罪（充其量是未遂）
近因 doctrine：结果不应"在发生上过于遥远或偶然"

4.4 匹配 vs 氧气的例子

考虑火灾场景： - 匹配被划燃 → 房子被烧毁 - 氧气存在 → 房子被烧毁

两个因素都是必要因果（没有其中一个就不会发生火灾）。为什么我们责怪匹配而非氧气？

答案在于PN和PS的组合： - 对于匹配：PN高且PS高（划燃匹配是罕见事件，但一旦发生几乎肯定导致火灾） - 对于氧气：PN高但PS低（氧气无处不在，不能被视为原因）

4.5 气候变化中的反事实分析

2003年欧洲热浪造成约15,000人死亡。传统观点认为无法将特定天气事件归因于气候变化。气候科学家Alexis Hannart提出简单因果图：

温室气体 → 气候变化 → 热浪/极端天气

由于温室气体是顶层节点（无箭头指向它），不存在混淆问题。

对于2003年欧洲热浪： - PN ≈ 0.9：没有温室气体，热浪很可能不会发生（90%概率） - PS ≈ 0.007：温室气体单独不能充分预测这次特定事件

解读： - PN高意味着气候变化是必要原因 - PS低意味着气候变化不是充分原因（还有很多其他因素）

4.6 政策含义

随着时间窗口延长： - PN下降（其他机制也可能导致热浪） - PS上升（更多机会让"骰子"掷出极端事件）

例如：200年期间，气候变化有80%概率成为至少一次类似2003年热浪的充分原因。

五、主要结论与核心洞见

5.1 为什么需要反事实

反事实思维在多个领域至关重要： - 责任与归因：我们需要比较实际发生的事与如果某人采取不同行动会发生什么 - 个性化决策："我的叔叔Joe如果戒烟还能活着吗？" - 科学理解：揭示因果机制的细节 - 法律裁决：量化被告的culpability - 政策制定：评估干预的预期效果

5.2 三大因果查询类型

必要因果（PN）：X是Y的必要原因吗？（but-for测试）
充分因果（PS）：X足以导致Y吗？
直接vs间接效应：效应中有多少通过中介物传递，有多少是直接的

5.3 关键洞见

反事实不能仅从数据中得出（第三级 > 第一级）
因果图使假设透明和可测试
结构因果模型通过三步程序算法化反事实
匹配和插补等数据驱动方法不足以处理反事实

5.4 鲁宾模型 vs 结构因果模型的比较

Pearl指出，不可知性的定义存在严重的可理解性问题："在混淆变量Z的任何层中，具有一个潜在结果Yx=y的个体，与具有不同潜在结果Yx=y'的个体一样可能被分配到处理组或对照组。"

问题在于：我们需要判断潜在结果本身的分布，但潜在结果正是我们试图估计的东西！这是循环定义。

没有因果图，研究者要么进行复杂的心理体操来验证假设，要么盲目接受假设——正如Marshall Joffe 2010年所指出的，不可知性假设通常是为了证明使用现有统计方法的合理性，而非真正相信其成立。

5.5 本章的铺垫作用

本章为第九章关于中介分析的讨论做了铺垫。中介分析试图回答：处理变量的效应有多少通过中介变量传递？这种"直接效应"与"间接效应"的区分本身就涉及反事实陈述。

六、挑战与开放问题

6.1 不可知性假设的循环定义问题

鲁宾模型中的不可知性假设存在根本性的定义困难：我们需要判断潜在结果本身的分布，但潜在结果正是我们试图估计的东西。这种循环定义使得独立验证变得不可能。

6.2 匹配法的失效

匹配法假设在所有观测变量上匹配的个体具有相同的潜在结果，但这一假设忽视了中介变量与混淆变量的根本区别。当处理变量影响匹配变量时，匹配策略会产生系统性偏差。

6.3 线性回归的因果盲区

回归分析是"数据驱动"而非"模型驱动"的工具。它无法区分因果方向的不同假设（教育→经验→薪水 vs. 经验→教育→薪水）。这种因果盲区使得回归在处理反事实问题时本质上不适用。

6.4 充分因果与必要因果的张力

在"坠落钢琴"案例中，但若测试会判定被告有罪（没有逃跑就不会在钢琴下），但直觉告诉我们被告无罪。这反映了法律因果关系中PN和PS的组合判断与日常直觉之间的张力。近因 doctrine试图解决这一问题，但缺乏精确的形式化定义。

6.5 气候变化归因的不确定性

虽然PN高（≈0.9）表明气候变化是必要原因，但PS低（≈0.007）表明它不是充分原因。如何在政策制定中平衡这两种度量？如何向公众传达这种概率性因果判断？这些都是尚未完全解决的问题。

6.6 可能世界本体论的争议

刘易斯的可能世界理论虽然直观，但引发了关于可能世界是否物理存在的哲学争议。结构因果模型通过"最小修改"因果图提供了操作化方案，但这种做法的哲学基础仍有讨论空间。

七、个人反思与批判性分析

7.1 对潜在结果框架的评价

潜在结果框架（鲁宾因果模型）是20世纪统计学最重要的进展之一，它将因果推理重新纳入统计学的视野。然而，本章揭示了该框架的几个关键弱点。首先，不可知性假设的定义依赖于潜在结果本身，这是一个循环定义。其次，该框架缺乏像d-分离那样的形式化工具来检验假设的可测试性。第三，匹配等方法忽视了中介变量与混淆变量的本质区别。Pearl的结构因果模型在很大程度上克服了这些限制，但代价是需要明确承诺一个因果结构。

7.2 对三步程序的思考

三步程序（推理→行动→预测）是本书迄今最重要的算法贡献。它将"反事实是什么"这个哲学问题转化为一个可计算的步骤序列。第一步"推理"实际上是利用观察数据估计外生变量的值，这是贝叶斯推断思想的体现。第二步"行动"对应于do算子的形式化定义。第三步"预测"则是标准的条件期望计算。这一程序的优雅之处在于它完全符合直觉，同时又具有精确的数学形式。

7.3 对因果推断第一定律的洞见

$Y_x(u) = Y_{M_x}(u)$这一定律是整个因果推断理论的基础。它表明，反事实可以通过在修改后的模型中计算来获得。这里的"修改"就是删除指向处理变量的所有箭头。这一定律将反事实从不可观察的哲学概念转变为可计算的模型属性。

7.4 对法律反事实应用的思考

法律中的"但若"测试看似简单，但在实际案例中面临诸多困难。"坠落钢琴"案例展示了PN和PS的张力：我们需要同时考虑必要因果和充分因果。Pearl提出的PN-PS组合分析提供了一种量化框架，但如何在法律实践中操作化仍需进一步研究。

7.5 对气候变化归因的启示

气候变化归因是反事实分析的一个成功应用案例。FAR方法通过比较气候变化前后热浪的概率，提供了量化气候变化责任的科学框架。然而，PS的低值表明气候变化作为充分原因的局限性，这提醒我们因果关系不应被过度简化。

7.6 对人类认知的反思

Pearl认为，人类大脑可能使用类似于结构模型的"快捷方式"来管理数量庞大的可能世界。这一观点与认知科学中的因果心智模型理论高度一致。反事实思维不仅是科学和法律的工具，更是人类认知的核心能力。理解这一能力的计算基础，将有助于我们开发更好的人工智能系统。

7.7 关键启示总结

反事实思维是人类认知的核心能力，而结构因果模型提供了将这种能力系统化和算法化的框架。通过明确表示假设（而非将其隐藏在代数中），因果图和结构方程使研究者能够透明地提出因果问题并获得可测试的答案。

公式汇总表

#	名称	公式	物理/统计意义	类型
(8.2)	薪水结构方程	$S = \$65,000 + 2,500 \times EX + 5,000 \times ED + U_S$	薪水由经验和教育共同决定，$U_S$为特异性因素	(T)
(8.3)	经验结构方程	$EX = 10 – 4 \times ED + U_{EX}$	经验受教育负向影响（更多教育需更多时间）	(T)
—	因果推断第一定律	$Y_x(u) = Y_{M_x}(u)$	潜在结果等于在修改模型中计算的值	(T)
—	必要因果(PN)	$PN = P(Y_{X=0} = 0 \\| X=1, Y=1)$	无X则无Y的概率（but-for测试）	(T)
—	充分因果(PS)	$PS = P(Y_{X=1} = 1 \\| X=0, Y=0)$	有X则有Y的概率	(T)
—	可归因风险分数	$FAR = 1 - p_0 / p_1$	气候变化对热浪的归因比例	(E)
—	三步程序	推理→行动→预测	反事实计算的三个步骤	(T)
—	SUTVA	稳定单位处理值假设	每个个体处理效果不受他人影响	(A)
—	不可知性	$Y_x \perp X \\| Z$	给定Z，潜在结果与处理独立	(A)
—	d-分离	路径阻断判据	因果图中条件独立的判定准则	(T)

注：(T)=理论推导，(E)=经验公式，(A)=假设/公理

#	名称	公式	物理/统计意义	类型
(8.2)	薪水结构方程	\(S = \$65,000 + 2,500 \times EX + 5,000 \times ED + U_S\)	薪水由经验和教育共同决定，\(U_S\)为特异性因素	(T)
(8.3)	经验结构方程	\(EX = 10 – 4 \times ED + U_{EX}\)	经验受教育负向影响（更多教育需更多时间）	(T)
—	因果推断第一定律	\(Y_x(u) = Y_{M_x}(u)\)	潜在结果等于在修改模型中计算的值	(T)
—	必要因果(PN)	\(PN = P(Y_{X=0} = 0 \\| X=1, Y=1)\)	无X则无Y的概率（but-for测试）	(T)
—	充分因果(PS)	\(PS = P(Y_{X=1} = 1 \\| X=0, Y=0)\)	有X则有Y的概率	(T)
—	可归因风险分数	\(FAR = 1 - p_0 / p_1\)	气候变化对热浪的归因比例	(E)
—	三步程序	推理→行动→预测	反事实计算的三个步骤	(T)
—	SUTVA	稳定单位处理值假设	每个个体处理效果不受他人影响	(A)
—	不可知性	\(Y_x \perp X \\| Z\)	给定Z，潜在结果与处理独立	(A)
—	d-分离	路径阻断判据	因果图中条件独立的判定准则	(T)