跳转至

第四章:动作、计划与直接效应

《因果关系:模型、推理与推断》读书笔记

Pearl (2009) Causality


1. 章节概述

本章延续了第三章关于因果效应识别的分析,将do算子的应用从原始干预扩展到更为复杂的场景。全章围绕三个核心问题展开:

  1. 混杂控制:通过后门条件识别因果效应
  2. 策略评估:从观察数据预测干预效果
  3. 反事实评估:为反事实分析提供形式语义

本章的核心贡献包括: - 将干预分析从简单干预 \(do(X=x)\) 扩展到条件干预 \(do(X=g(Z))\) 和随机策略 - 提出动态计划的识别方法(序贯后门准则) - 建立直接效应与间接效应的形式化定义与识别条件 - 引入中介公式(Mediation Formula)用于非线性系统中的中介分析

章节结构按如下方式组织: - 4.1节讨论动作在概率论和决策分析中的地位 - 4.2节处理条件动作与随机策略 - 4.3节给出因果效应可识别性的图形化充分条件 - 4.4节解决动态计划的识别问题 - 4.5节分析直接效应与间接效应


2. 关键问题与研究动机

2.1 动作与行为的区分

本章开篇即强调了一个根本性的概念区分:动作(action)行为(act)。这一区分对于正确理解因果推断至关重要。

行为(act)是从外部视角观察到的、由主体信念、 disposition 和环境输入导致的结果。例如:"Adam吃了苹果,因为Eve把苹果递给了他"。行为可以从外部预测,并可作为推断行为者刺激和动机的证据。

动作(action)是从内部视角看待的、涉及深思熟虑决策过程的选项,通常涉及后果比较。例如:"Adam在想如果他吃了苹果,上帝会怎么做"。动作既不能预测也不能提供证据,因为(按照定义)它们处于待决状态,一旦执行就变成行为。

这一区分导致了新伯姆悖论(Newcomb's paradox)和所谓"证据决策理论"中的其他奇怪现象。该理论错误地建议决策者考虑行动本身的证据价值,这违背了因果推断的基本原则。

2.2 决策理论中的核心问题

标准决策理论指导理性主体选择使期望效用最大化的选项:

\[U(x) = \sum_y P(y | do(x)) \cdot u(y)\]

而"证据决策理论"错误地要求最大化条件期望:

\[U_{ev}(x) = \sum_y P(y | x) \cdot u(y)\]

这种错误导致了明显的悖论:病人应该避免去看医生"以减少患重病的概率",工人不应该赶着去上班以"减少睡过头的概率",学生不应该备考以免"证明他们学习落后"。

2.3 概率论的局限性

概率论本身不包含关于动作的信息。给定一个概率函数 \(P(s)\),我们无法从中得知在外部动作 \(do(A)\) 下概率如何变化。这类似于:知道一个三维物体的精确描述足以预测从物体外部任何角度观察到的视图,但无法预测如果物体被外部力操纵和挤压时的视图。额外的因果信息是理解这种变换所必需的。

2.4 策略评估的挑战

在现实应用中,干预通常涉及复杂策略,其中变量 \(X\) 以特定方式响应另一组变量 \(Z\)(通过函数关系 \(X = g(Z)\) 或随机关系)。关键挑战在于:

  • 一些混杂因素(如 \(Z\))本身受控制变量的影响
  • 调整中间变量会干扰我们要估计的量
  • 需要在不枚举所有可能的干预组合的情况下预测干预效果

2.5 直接效应识别的需求

在许多情况下,总效应 \(P(y | do(x))\) 不能充分代表研究目标。例如: - 避孕药可能导致血栓(直接效应),同时通过减少怀孕(间接效应)来降低血栓风险 - 法律案件中需要证明性别/种族不直接影响招聘决策,而不管其通过对申请人资质的间接影响


3. 主要公式与推导

3.1 条件干预与随机策略

条件干预的效应计算

给定策略 \(do(X = g(Z))\),效应为:

\[P(y | do(X = g(Z))) = \sum_z P(y | \hat{x}, z)|_{x=g(z)} \cdot P(z) = E_Z[P(y | \hat{x}, z)|_{x=g(z)}]\]

关键性质:\(P(z | do(X = g(Z))) = P(z)\),因为 \(Z\) 不是 \(X\) 的后代。

随机策略的效应计算

对于随机干预 \(P^*(x|z)\)

\[P(y) | P^*(x|z) = \sum_x \sum_z P(y | \hat{x}, z) \cdot P^*(x|z) \cdot P(z)\]

可识别性条件:\(P(y | \hat{x}, z)\) 的可识别性是任何随机策略可识别性的充要条件。

3.2 行动效应的图形化识别条件(定理4.3.1)

\(X\)\(Y\) 是图 \(G\) 中的单点变量,\(P(y | \hat{x})\) 可识别的四个充分条件:

条件1\(X\)\(Y\) 没有后门路径,即 \((Y \perp X)_{G_{\underline{X}}}\)

条件2\(G\) 中不存在从 \(X\)\(Y\) 的有向路径

条件3:存在节点集 \(B\) 阻塞所有从 \(X\)\(Y\) 的后门路径,且 \(P(b | \hat{x})\) 可识别

条件4:存在节点集 \(Z_1\)\(Z_2\) 满足: - (i) \(Z_1\) 阻塞所有从 \(X\)\(Y\) 的有向路径 - (ii) \(Z_2\) 阻塞 \(Z_1\)\(Y\) 之间的所有后门路径(在 \(G_{X}\) 中) - (iii) \(Z_2\) 阻塞 \(X\)\(Z_1\) 之间的所有后门路径 - (iv) \(Z_2\) 不激活任何从 \(X\)\(Y\) 的后门路径

3.3 序贯后门准则(定理4.4.1)

对于计划 \((x_1, x_2, \ldots, x_n)\),设 \(N_k\) 为非 \(\{\hat{X_k}, X_{k+1}, \ldots, X_n\}\) 后代的观测节点集。

如果对每个 \(1 \leq k \leq n\),存在协变量集 \(Z_k\) 满足:

\[Z_k \subseteq N_k\]

\[(Y \perp X_k | X_1, \ldots, X_{k-1}, Z_1, Z_2, \ldots, Z_k)_{G_{X_k, X_{k+1}, \ldots, X_n}}\]

则计划效果为:

\[P(y | \hat{x}_1, \ldots, \hat{x}_n) = \sum_{z_1, \ldots, z_n} P(y | z_1, \ldots, z_n, x_1, \ldots, x_n) \prod_{k=1}^{n} P(z_k | z_1, \ldots, z_{k-1}, x_1, \ldots, x_{k-1})\]

3.4 直接效应定义

定义4.5.1(直接效应)

\(X\)\(Y\) 的直接效应为 \(P(y | \hat{x}, \hat{S}_{XY})\),其中 \(S_{XY}\) 是系统中除 \(X\)\(Y\) 外的所有内生变量。

推论4.5.2

直接效应等价于 \(P(y | \hat{x}, \widehat{pa_Y \setminus X})\),即在控制 \(Y\) 的父母(除 \(X\) 外)时的效应。

3.5 自然直接效应与中介公式

自然直接效应(式4.11)

\[DE_{x, x'}(Y) = E[Y(x', Z(x))] - E[Y(x)]\]

其中 \(Z(x)\) 表示在 \(do(X=x)\)\(Z\) 会取得的值。

可识别的自然直接效应(式4.12)

\[DE_{x, x'}(Y) = \sum_z [E(Y | do(x', z)) - E(Y | do(x, z))] \cdot P(z | do(x))\]

中介公式(式4.17-4.18)

在无混杂中介假设下:

\[DE_{x, x'}(Y) = \sum_z [E(Y | x', z) - E(Y | x, z)] \cdot P(z | x)\]
\[IE_{x, x'}(Y) = \sum_z E(Y | x, z) \cdot [P(z | x') - P(z | x)]\]

3.6 公式汇总表

公式编号 名称 表达式 应用场景
(4.1)-(4.3) 计划效应分解 \(P(y \| \hat{x}_1, \hat{x}_2) = \sum_z P(y \| z, x_1, x_2) P(z \| x_1)\) 两个干预的计划效应
(4.6) 序贯后门公式 \(P(y \| \hat{x}_1, \ldots, \hat{x}_n) = \sum_{z_1, \ldots, z_n} P(y \| \mathbf{z}, \mathbf{x}) \prod_k P(z_k \| \mathbf{z}_{k-1}, \mathbf{x}_{k-1})\) 动态计划效应计算
(4.7) 具体计划效应 \(P(y \| \hat{x}_1, \hat{x}_2) = \sum_z P(y \| z, x_1, x_2) P(z \| x_1)\) 图4.4的计划
(4.9) 错误调整公式 \(\sum_{x_2} P(y \| \hat{x}_1, x_2) P(x_2)\) 部门调整(不正确)
(4.10) 正确直接效应 \(P(y \| \hat{x}_1, \hat{x}_2) = \sum_z P(y \| z, x_1, x_2) P(z \| x_1)\) 性别歧视分析(正确)
(4.11) 自然直接效应 \(DE_{x,x'}(Y) = E[Y(x', Z(x))] - E[Y(x)]\) 反事实直接效应
(4.12) 可识别自然DE \(DE_{x,x'}(Y) = \sum_z [E(Y \| do(x',z)) - E(Y \| do(x,z))] P(z \| do(x))\) 可识别条件下的DE
(4.14) 自然间接效应 \(IE_{x,x'}(Y) = E[Y(x, Z(x')) - Y(x)]\) 反事实间接效应
(4.17) 中介公式-DE \(DE = \sum_z [E(Y\|x',z) - E(Y\|x,z)] P(z\|x)\) 非线性中介分析
(4.18) 中介公式-IE \(IE = \sum_z E(Y\|x,z) [P(z\|x') - P(z\|x)]\) 非线性中介分析

4. 关键算法与建模方法

4.1 控制查询的封闭形式算法

函数 ClosedForm(P(y | \hat{x}))

输入:控制查询 \(P(y | \hat{x})\)

输出\(P(y | \hat{x})\) 的封闭形式表达式,或 FAIL(不可识别时)

步骤

  1. \((Y \perp X)_{G_{\underline{X}}}\),返回 \(P(y)\)
  2. 否则,若 \((Y \perp X)_{G_X}\),返回 \(P(y | x)\)
  3. 否则,设 \(B = \text{BlockingSet}(X, Y)\),计算 \(P_b = \text{ClosedForm}(P(b | \hat{x}))\)
  4. \(P_b \neq FAIL\),返回 \(\sum_b P(y | b, x) \cdot P_b\)
  5. 否则,设 \(Z_1 = \text{Children}(X) \cap \text{Ancestors}(Y)\)\(Z_3 = \text{BlockingSet}(X, Z_1)\)\(Z_4 = \text{BlockingSet}(Z_1, Y)\)\(Z_2 = Z_3 \cup Z_4\)
  6. \(Y \notin Z_1\)\(X \notin Z_2\),返回: $\(\sum_{z_1, z_2} \sum_{x'} P(y | z_1, z_2, x') P(x' | z_2) P(z_1 | x, z_2) P(z_2)\)$
  7. 否则,返回 FAIL

4.2 G可识别性的判定程序(推论4.4.5)

  1. \(k = 1\)
  2. 选择任意最小 \(Z_k \subseteq N_k\) 满足式(4.5)
  3. 若不存在这样的 \(Z_k\),则以失败退出;否则设 \(k = k + 1\)
  4. \(k = n + 1\),以成功退出;否则返回步骤2

4.3 序贯后门准则的图形化应用

对于图4.4所示的AIDS患者例子: - 变量:\(X_1\) = 第一阶段Bactrim给药,\(X_2\) = 第二阶段Bactrim给药,\(Z\) = PCP发作,\(Y\) = 生存 - 隐变量:\(U_1\) = 患者历史(影响\(X_1\)但未记录),\(U_2\) = 患者体质(影响\(Z\)\(Y\)

识别步骤: 1. 验证 \((Y \perp X_1)_{G_{X_1, X_2}}\) ✓(无后门路径) 2. 验证 \((Y \perp X_2 | X_1, Z)_{G_{X_2}}\) ✓(\(X_1\)\(Z\) 阻塞后门) 3. 因此 \(Z_1 = \emptyset\)\(Z_2 = \{Z\}\) 是可允许序列

4.4 直接效应识别方法

根据定理4.5.3,直接效应识别步骤:

  1. 将直接父母 \(PA_Y\) 作为控制变量
  2. 应用定理4.4.1的序贯后门准则
  3. 若可识别,使用式(4.8)计算直接效应

Berkeley录取例子中的调整: - 错误做法:\(\sum_{x_2} P(y | \hat{x}_1, x_2) P(x_2)\) — 按部门调整 - 正确做法:\(\sum_z P(y | z, x_1, x_2) P(z | x_1)\) — 按职业目标调整


5. 主要结论

5.1 动作的理论地位

  1. 动作外生于概率论:概率论本身无法描述动作的效果,必须借助因果知识
  2. do算子的必要性:条件化不适合描述动作效果,因为条件化表示被动观察,而动作改变世界
  3. 决策分析中的角色:动作应作为外生变量处理,但需要预先枚举所有可能的动作

5.2 可识别性的图形化条件

定理4.3.1的四个充分条件: - 条件1-4中任意一个满足即可保证 \(P(y | \hat{x})\) 可识别 - 条件1、2是特殊情况,条件3、4更一般 - 这些条件在do-calculus中是完备的

定理4.3.2(必要性): 若四个条件均不满足,则不存在有限的推理规则序列能将 \(P(y | \hat{x})\) 化为无帽表达式。

5.3 动态计划识别

序贯后门准则的核心思想: - 将复杂计划分解为一系列简单的do操作 - 在每个时间点,使用可获得的观测变量来阻塞后门路径 - 不同时调整受动作影响的变量

关键发现: - 处理计划作为单一实体会导致不可识别(弓形模式) - 将计划分解为组成动作可以利用可识别性

5.4 直接效应理论

  1. 直接效应的定义\(P(y | \hat{x}, \widehat{pa_Y \setminus X})\) — 控制 \(Y\) 的其他父母
  2. 与总效应的区别:总效应包含所有中介路径,直接效应只包含直接链接
  3. 识别的图形条件:若父母效应的计划可识别,则直接效应可识别
  4. 自然直接效应的意义:对应法律案件中"如果其他条件相同"的反事实场景

5.5 中介分析

  1. 中介公式的普遍性:适用于任何非线性系统、任何分布、任何类型变量
  2. 直接效应与间接效应的可加性:在非线性系统中,总效应 ≠ 直接效应 + 间接效应
  3. 政策含义:间接效应有清晰的政策制定含义(如消除性别偏见后劳动力性别构成的变化)

6. 挑战与开放问题

6.1 完备性挑战

尽管do-calculus在因果效应识别中是完备的(Shpitser和Pearl 2006a),但: - 定理4.3.1的条件是充分的但不是必要的(仅适用于单变量\(X\)) - 完整的可识别性边界由Tian和Pearl (2002a)定理3.7给出 - 对于高维变量组合,图形条件的搜索空间巨大

6.2 计划排序依赖性

关键问题:可允许序列的存在可能依赖于控制变量的排序

例子(图4.8): - 排序\((X_1, X_2)\)允许可允许序列\((\emptyset, Z)\) - 排序\((X_2, X_1)\)不允许任何可允许序列

解决方向:Shpitser和Pearl (2006b)的图形化准则可绕过这一搜索问题

6.3 自然直接效应的不可识别性

根本局限:自然直接效应涉及嵌套反事实,一般情况下即使在理想控制实验中也无法识别

充分条件:假设 \(Z(x) \perp Y(x', z) | W\)(无混杂条件)

未解决问题:在没有明确假设的情况下,何时可以识别自然直接效应?

6.4 非线性系统中的效应修饰

问题:线性系统中直接效应由路径系数完全指定,与固定其他父母的值无关

非线性系统的复杂性: - 直接效应可能依赖于固定其他父母的值 - 不同子群体(如孕妇vs非孕妇)可能有不同的效应 - "效应修饰"概念在非线性系统中更为重要

6.5 隐变量的处理

挑战:在实际应用中,未观测混杂是常态而非例外

当前方法的局限: - 定理4.3.1假设半马尔可夫模型(允许未观测混杂) - 但图形条件的验证在高维图中可能计算困难 - 需要发展更有效的算法来处理大规模图


7. 个人反思与批判性分析

7.1 理论贡献的评价

本章是Pearl因果推断框架中最为实践导向的章节之一,其理论贡献可从以下几个层面评价:

概念创新的重要性: - "动作"与"行为"的区分(4.1.1节)是本章最基础的概念贡献。这一区分看似简单,却是避免因果推断中无数谬误的关键。证据决策理论的失败正是因为混淆了这两个概念。 - do算子的引入不仅是一个数学记号,更是一种根本性的理论立场:因果推断需要一种不同于概率论的专门形式化工具。

方法论的意义: - 序贯后门准则(4.4节)将复杂的计划评估问题分解为可处理的步骤,这是处理时间依赖性混杂的标准方法(g-methods)的图形化表达。 - 与Robins的潜在结果框架相比,图形化方法提供了更直观的理解方式和更系统的验证程序。

7.2 与传统方法的比较

vs. 传统统计调整: 传统方法通过在回归中控制协变量来处理混杂,但这存在两个根本问题: 1. 并非所有协变量都应该调整——中间变量(如怀孕)不应调整 2. 调整的效果无法从数据本身判断,需要因果假设

本章的图形化方法明确告诉我们如何判断哪些变量应该调整,以及为什么

vs. 结构方程模型(SEM): - 5.1节预告了第五章的讨论:传统SEM研究者往往将结构方程解释为概率关系而非因果关系 - Pearl框架为SEM提供了真正的因果语义,这是对经济学和社会科学中SEM应用的重大贡献

7.3 哲学层面的思考

反事实的本质: 4.5.4-4.5.5节对自然直接效应和间接效应的讨论触及了因果推断的哲学核心。式(4.11)定义的自然直接效应涉及"在\(X\)被设置为\(x\)\(Z\)会取得的值"这样的嵌套反事实。这种反事实结构在法律证据标准中普遍存在("如果其他条件相同…")。

可知论的边界: 自然直接效应的一般不可识别性(即使在理想实验中)提醒我们因果推断的理论边界。这不是方法的失败,而是因果关系本身性质的反映——某些因果问题在经验上根本不可判定。

7.4 实践应用的反思

Berkeley录取例子的启示: - 这个例子揭示了一个深刻的方法论教训:即使数据完全相同,不同的分析方法可能给出完全不同的结论 - "按部门调整"vs"按职业目标调整"的对比说明:调整变量的选择必须基于因果理论,而非数据驱动 - 这对实际研究设计有重要指导意义

中介分析的陷阱: - 中介公式(4.17-4.18)的应用需要严格的无混杂假设 - 在观察研究中验证这些假设极其困难 - 研究者在报告中介分析结果时应更加谨慎

7.5 对未来研究的思考

开放问题: 1. 如何在不完全已知因果图的情况下进行因果推断? 2. 如何处理高维变量和大规模图的有效识别算法? 3. 如何将因果推断框架与机器学习方法结合?

框架的普适性: Pearl的因果框架具有极强的普适性,从最初的医学流行病学应用,已经扩展到: - 经济学(政策评估) - 计算机科学(因果推断与机器学习) - 法律(证据标准) - 社会学(社会因果机制)

这种跨学科的适用性是该框架强大生命力的体现。

7.6 结论性评价

第四章是《因果关系》一书中技术密度最高的章节之一,它将前三章的理论基础转化为可操作的方法论工具。通过动作理论、计划识别和直接效应分析三个核心议题,本章不仅解决了具体的因果推断问题,更建立了一种系统的因果思维方法。

作为读者,我深刻认识到因果推断的本质挑战不在于数学技术,而在于概念澄清——只有清晰理解"因果关系是什么"以及"干预意味着什么",才能发展出正确的方法论。本章在这方面树立了典范。


参考文献

  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
  • Chapter 4: Actions, Plans, and Direct Effects (pp. 107-132)

读书笔记撰写日期:2026年5月10日