第 4 章：行动、规划与直接效应（Actions, Plans, and Direct Effects）

4.1 引言（Introduction）

第 3 章讨论了形如 do(x) 的"原子"干预——把变量 X 强制设为常数 x，并求此行动对响应变量 Y 的概率分布的影响。本章把这一分析作几方面的扩展：第 4.1 节讨论行动在概率论、决策分析、因果建模中的地位，并提出主题——因果模型的主要作用是便利评估构造模型时未预见到的新颖行动与策略的效应。第 4.2 节把第 3 章的识别分析扩展到形如"看到 z 时做 x"的条件行动以及形如"看到 z 时以概率 p 做 x"的随机策略。第 4.3 节用第 3 章发展的干预演算，给出一类半马尔可夫模型的图形刻画，使其上 X 对 Y 的因果效应可被识别。第 4.4 节处理评估动态规划效应的问题——规划由随时间变化的若干（部分同时实施的）行动构成，设计以产生某特定结果；本节给出一种图形方法，可从某些行动受观测与既往行动影响、某些观测受行动影响、某些混杂变量不可测的非实验研究中估计此类规划的效应；并显示把规划分析到组成行动比把行动集合当作单一实体更有优势。第 4.5 节讨论直接效应与间接效应的区分问题：直接效应可由 4.4 节给出的图形方法识别，并以"大学招生中涉嫌性别歧视"的例子说明直接效应分析所需假设。

4.1.1 行动、行为与概率（Actions, Acts, and Probabilities）

行动可有两种解读：反应式的与审慎式的。反应式解读把行动看作主体信念、性情与环境输入的结果，如"亚当吃了苹果，因为夏娃递给他"。审慎式解读把行动看作所考虑决策中的选择项，通常涉及后果比较，如"亚当在想若他吃了苹果，上帝会怎么做"。把前者称为"行为"(act)、后者称为"行动"(action)，行为从外部观察，行动从内部观察。因此行为可以被预测，可作为主体刺激与动机的证据（若主体在我们的模型内）。相反，行动既不能被预测也不能提供证据，因为按定义它们尚待审慎、待执行后即变为行为。

行动与行为之间的混淆导致了 Newcomb 悖论（Nozick 1969），以及所谓的证据决策理论（evidential decision theory）中的其他怪异——这种理论鼓励决策者把行动若被执行所会提供的证据纳入考量。这一诡异理论的源头似乎是 Jeffrey 影响甚著的《决策逻辑》(The Logic of Decision)（Jeffrey 1965），其中行动被当作普通事件（而非干预）处理，因而行动效应通过条件化而非 do(x) 一类的机制修改操作求得（参见 Stalnaker 1972；Gibbard and Harper 1976；Skyrms 1980；Meek and Glymour 1994；Hitchcock 1996）。

常识性决策理论1 指示理性主体选取使期望效用最大化的选项 x

\[ U(x) = \sum_y P(y \mid do(x)) u(y) \]

其中 u(y) 是结果 y 的效用；相比之下，"证据决策理论"要求最大化条件期望

\[ U_{ev}(x) = \sum_y P(y \mid x) u(y) \]

其中 x 被（不正确地）当作被观测的命题。

由此谬误产生的悖论显而易见：病人应避免去看医生，"以减小自己真有重病的概率"（Skyrms 1980, p. 130）；工人不应赶着去上班，以减小自己睡过头的概率；学生不应为考试准备，免得这反而证明他们学习落后；如此等等。总之，一切补救性行动都应被禁止，免得它们反而增大补救确属必要的概率。

这类逻辑的怪异源于把行动当作由过去联想约束的行为，而非由 do(x) 算符语义所规定的自由选择对象。这种"证据"决策理论宣称决策者不应忽视真正的统计证据（此处即行为正常情况下就其必要性所提供的证据），但恰当的决策理论则提醒我们：行动——按其定义——使该证据与决策无关，因为行动改变了行为通常服从的概率。

故事寓意可概括为下列打油诗：

行为能提供的任何证据

关于引起该行为的因素，

都不应用来帮助决定

是否选择同一行为。

证据决策理论在哲学文献中只是过场一章，今天没有哲学家认真对待该理论的原本形式。但仍有人尝试通过把 P(y | x) 换成 P(y | x, K) 来复兴 Jeffrey 的期望效用，其中 K 是选定的若干背景语境，用以抑制虚假联想（如 (3.13) 那样）（Price 1991；Hitchcock 1996）。此类尝试呼应一种过度限制的实证主义传统——按此传统，理性主体生与死都依赖于一种信息源（统计关联），因而期望效用不应接纳除贝叶斯条件化以外的操作。这一传统正在迅速让位于更宽容的观念：理性主体应按行动理论行动；自然地，这样的理论要求针对行动的条件化（如 do(x)），同时把贝叶斯条件化留给被动观测（参见 Goldszmidt and Pearl 1992；Meek and Glymour 1994；Woodward 1995）。

原则上，行动不属于概率论，这可以理解：概率刻画世界中通常的关系，行动则代表扰动这些关系的干预。难怪行动在概率与统计文献中始终被当作外来的实体；它们既不充当概率表达式的变元，也不充当被条件化的事件。

即便在统计决策理论文献（Savage 1954）中——行动是分析的主要目标——赋予行动的符号也仅仅用作区分不同概率函数的标号，并不充当与概率所定义的变量之间存在逻辑关系的实体。Savage（1954, p. 14）把"行为"定义为"对世界每个状态附以一个后果的函数"，把一个接一个的决策链当作单个决策处理。然而，导出行动与策略后果的逻辑——从更初等的考量出发——被排斥在该形式化之外。例如考虑"提高税收"、"降低税收"、"提高利率"这三个行动：三个行动的后果必须事先分别指定；不能从其中一个推得另一个。结果若给定两概率 PA、PB 分别表示行动 A、B 下的概率，则无法从这些输入推出联合行动 A∧B 对应的概率 PA∧B，或任何关于命题 A、B 布尔组合的概率。这意味着原则上所有预期联合行动的冲击都必须事先指定——一项不可逾越的任务。

行动在概率论中的特殊地位，与观测的地位对比最为清晰。通过在世界的可能状态上指定概率函数 P(s)，我们自动指定概率应如何随每种可想到的观测 e 而变，因为 P(s) 允许我们（通过对 e 的条件化）计算每对事件 E、e 的后验概率 P(E | e)。然而，指定 P(s) 并不告诉我们概率应如何响应外部行动 do(A) 而变。一般地，若行动 do(A) 要被刻画为把 P(s) 变换为 PA(s) 的函数，则 P(s) 并不告诉我们 PA(s) 的性质，即便 A 是 P(A) 良定义的基本事件（例如"把温度升高 1 度"或"打开洒水器"）。除却平凡要求 PA(s) 在 s 蕴含 ¬A 时为零（这一要求均匀地应用于每个 P(s)），概率论并不告诉我们 PA(s) 应如何异于 P¬A(s)，其中 P¬(s) 是另一事前概率函数。在 1 章与 3 章的众多例子中已显示，单纯对 A 条件化显然不足以刻画这种变换，因为条件化代表不变世界中的被动观测，而行动会改变世界。

打一个与视觉的类比：P(s) 中所含信息类似于对三维物体的精确描述；它足以预测从物体外任何角度所见的物体，但不足以预测物体被外力操纵、挤压时所见的形态。必须再提供关于物体物理性质的信息，才能作这类预测。类似地，描述从 P(s) 到 PA(s) 的变换所需的额外信息，应识别在行动 do(A) 下保持不变的世界要素。这份额外信息由因果知识提供，do(·) 算符使我们能够通过局部修改图或结构方程来捕捉这些不变要素（从而定义 PA(s)）。下节将把这一机制与决策理论中处理行动的方式相比较。

4.1.2 决策分析中的行动（Actions in Decision Analysis）

传统方法不是把新算符引入概率演算，而是把"看"与"做"之间的差异归因于可用总证据的差异。考虑两句话："气压计读数被观测为 x"与"气压计读数被设置为 x"。前者帮助我们预测天气，后者不。第一句话所述证据仅限于气压计读数，第二句话则还告诉我们气压计被某主体操纵；对这一额外证据条件化应让气压计读数变得与预测降雨无关。

这一方法的实际做法是把实施行动的主体纳入分析变量，构造包含其决策的增广分布函数，并通过条件化这些决策变量到特定值来推断行动的效应。例如操纵气压计的主体可以作为一个决策变量"挤压气压计"进入系统；把该变量纳入概率分布后，就可以通过在增广分布上对事件"气压计被外力 y 挤压并达到读数 x"条件化，简单地推断操纵气压计的效应。

为使这种条件化方法在评估未来行动效应时能正确工作，操纵主体必须被当作出于自由意志的理想实验者，关联的决策变量必须被当作外生的——在系统中不受其他变量因果影响。例如若增广概率函数编入了"气压计当前所有者在每次感到关节炎疼痛时挤压气压计"的事实，则我们将无法用该函数评估（即使同一所有者的）有意挤压气压计的效应。回到行为与行动的区别：每当我们着手计算待定行动的效应时，必须忽略过去曾约束或触发该行动执行的所有机制。因此事件"气压计被挤压"必须以独立于操纵时点之前一切事件的方式进入增广概率函数，类似第 3 章图 3.2 中行动变量 F 进入增广网络的方式。

这一解决方案精确对应决策分析（以影响图 (influence diagrams, ID) 文献为代表；Howard and Matheson 1981；Shachter 1986；Pearl 1988b, chap. 6；Dawid 2002）中处理行动的方式。每个决策变量被表示为外生变量（图中的无父节点），其对其他变量的冲击以条件概率的形式评估并编入，类似图中任何其他父节点的冲击。

这一方法的难点是我们必须事先预见并明确表示将来可能希望评估其效应的所有行动。这让建模过程变得不必要的繁琐，甚至难以处理。例如在电路诊断中，把每一种可想到的元件替换动作（类似地，每种可想到的接电压源、接电流源等）都表示为图中的一个节点会很笨拙。这类替换的效应隐含在电路图本身之中，从电路图出发即可推出（只要赋予因果解读）。计量经济学建模亦然：把每一种可想到的政策干预变体都表示为经济方程中的新变量会很笨拙；这类干预的效应可从结构方程中推得——只要我们能把每项政策的直接影响与方程中的对应变量与参数挂钩。例如复合行动"加税并降息"无须作为新变量引入方程，因为该行动的效应可由已有的量"税收水平"与"利率"（无论是外生还是内生变量）在方程中代表时推得。

不必事先枚举干预即可预测其效应，是因果建模的主要优势之一，也是因果概念所发挥的主要功能之一。由于行动或行动组合的数量庞大，它们无法在模型中被明确表示，而只能由每项行动直接强制实施的命题作索引。这些命题的间接后果则由模型所表示变量之间的因果关系推出。第 7 章（7.2.4 节）将回到这一主题，进一步探讨使这一编码方案成立所需的不变性假设。

4.1.3 行动与反事实（Actions and Counterfactuals）

作为贝叶斯条件化的替代，哲学家（Lewis 1976；Gardenfors 1988）研究了另一种概率变换，称为"成像"(imaging)，被认为对分析虚拟条件句有用，且更充分地代表与行动相关的变换。贝叶斯条件化 P(s | e) 把被 e 排除的状态上的全部概率质量按当前概率 P(s) 的比例转移到保留状态；成像则不同：每个被排除状态 s 单独地把其质量转移到一组被选状态 S(s)，被认为与 s"最相近"（见 7.4.3 节）。成像为行动提供了更充分也更一般的框架（Gibbard and Harper 1976），但它让选择函数 S(s) 的精确规格几乎不受约束。因此枚举未来行动的问题被替换为按经济且尊重域内因果律常识理解的方式编码状态间距离的问题。考虑到行动的间接影响常常引致与起始世界差异颇大的世界（Fine 1975），这一要求并不平凡。

让最相近世界方法符合因果律（7.4 节）的困难在本书采用的结构方法中被绕过——直接把干预概念建立在因果机制之上，并利用这些机制附带的不变性、自主性。这一机制修改方法可被看作最相近世界方法的特例，其相近度被精雕细琢以尊重域内因果机制；所得选择函数 S*(s) 由 (3.11) 表示（见紧随其后的讨论）。

这一机制修改语义的可操作性在第 3 章已演示，并导致了行动效应的定量预测——包括建模构造时未考虑的行动与行动组合，此时建模者可摆脱外部干预的思绪，自由描述自然的运作。第 7 章进一步用机制修改解释为反事实陈述提供语义，如 1.4.4 节概述的那样。本章把 do 演算的应用扩展到分析复杂策略与效应分解。

4.2 条件行动与随机策略（Conditional Actions and Stochastic Policies）

识别分析（3.3-3.4 节）中所考虑的干预仅限于把变量或变量组 X 强制取某指定值 x 的行动。一般地（如 3.2.3 节的过程控制例所示），干预可能涉及复杂策略，其中变量 X 按某指定方式响应其他变量集 Z——例如通过函数关系 x = g(z) 或随机关系，按概率 P*(x | z) 把 X 设为 x。基于 Pearl (1994b)，将显示识别此类策略效应等价于识别表达式 P(y | x̂, z)。

设 P(y | do(X = g(z))) 代表策略 do(X = g(z)) 下 Y 的分布。为计算 P(y | do(X = g(z)))，对 Z 条件化并写出

\[ P(y \mid do(X = g(z))) = \sum_z P(y \mid do(X = g(z)), z) P(z \mid do(X = g(z))) \]

\[ = \sum_z P(y \mid x̂, z) |_{x = g(z)} P(z) \]

\[ = E_z [P(y \mid x̂, z) |_{x = g(z)}] \]

等式 P(z | do(X = g(z))) = P(z) 自然地来自 Z 不可能是 X 的后代；故对 X 的任何控制都不可能影响 Z 的分布。可见策略 do(X = g(z)) 的因果效应可直接从 P(y | x̂, z) 的表达式出发、用 g(z) 替代 x、再对 Z 取期望（用观测分布 P(z)）即得。

条件策略的这一可识别性准则比无条件下预的准则更严格。显然，若策略 do(X = g(z)) 可识别，则简单干预 do(X = x) 也可识别，因为我们总可以通过设 g(z) = x 来得到后者。反之则不然，因为对 Z 条件化可能产生妨碍把 P(y | x̂, z) 成功化归为无 hat 表达式的依赖。Kuroki and Miyakawa (1999a, 2003) 给出了图形准则。

\[ P(y) = \sum_{x, z} P(y \mid x̂, z) P^*(x \mid z) P(z) \]

由于 P*(x | z) 是外部指定的，可见 P(y | x̂, z) 的可识别性同样是塑造 X 分布的随机策略（按 Z 的结果）可识别的充要条件。

规划中尤其重要的是类 STRIPS 的动作（Fikes and Nilsson 1971），其直接效应 X = x 依赖于变量集 W 上某启用前提 C(w) 的满足。为表示此类行动，令 Z = W = PA_X，并设

\[ P^*(x \mid z) = \begin{cases} P(x \mid pa_X) & \text{若 } C(w) = \text{false} \\ 1 & \text{若 } C(w) = \text{true 且 } X = x \\ 0 & \text{若 } C(w) = \text{true 且 } X \neq x \end{cases} \]

4.3 行动效应何时可识别（When is the Effect of an Action Identifiable?）

第 3 章发展了几种图形准则，识别存在未测变量时一个变量对另一变量的因果效应 P(y | do(x)) 是否可识别。这些准则——如同后门（定理 3.3.2）与前门（定理 3.3.4）——是一类更一般的半马尔可夫模型的特例，对其中反复应用 do 演算（定理 3.4.1）的推理规则可把 P(y | x̂) 化归为无 hat 的表达式，从而使之可识别。本节刻画一类更广的模型，其中因果效应 P(y | x̂) 可识别。这一类包含于 Tian and Pearl (2002a) 在定理 3.7 中所建之类，以及稍后 Shpitser and Pearl (2006b) 给出的完整刻画。本节将其引入因其直观吸引力。

4.3.1 识别的图形条件（Graphical Conditions for Identification）

定理 4.3.1 刻画一类模型，以四个图形条件的形式，只要 G 满足其中之一，P(y | x̂) 在 X、Y 为图中单点节点时即被识别。定理 4.3.2 进而陈述若 P(y | x̂) 在 do 演算中可识别，则这四个条件中至少有一个必须在模型中成立。鉴于 do 演算的完备性，结论是这四个条件之一对任何与定义 3.2.4 语义相容的识别方法都是必要的。

定理 4.3.1（Galles and Pearl 1995） 设 X、Y 为半马尔可夫模型（由图 G 刻画）中的两个单点变量。P(y | x̂) 可识别的一个充分条件是 G 满足下列四个条件之一。

G 中没有从 X 到 Y 的后门路径，即 \((X \not\!\perp\!\!\!\perp Y)_{G_{\overline{X}}}\)。
G 中没有从 X 到 Y 的有向路径。
存在节点集 B 阻断从 X 到 Y 的所有后门路径，且 P(b | x̂) 可识别。（这一条件的特例出现于 B 完全由 X 的非后代组成时，此时 P(b | x̂) 直接化归为 P(b)。）
存在节点集 Z1 与 Z2 使得： (i) Z1 阻断从 X 到 Y 的每条有向路径（即 \((Y \not\!\perp\!\!\!\perp X \mid Z_1)_{G_{\overline{X}Z_1}}\)）； (ii) Z2 阻断 Z1 与 Y 之间的所有后门路径（即 \((Y \not\!\perp\!\!\!\perp Z_1 \mid Z_2)_{G_{\overline{X}Z_1}}\)）； (iii) Z2 阻断 X 与 Z1 之间的所有后门路径（即 \((X \not\!\perp\!\!\!\perp Z_1 \mid Z_2)_G\)）；以及 (iv) Z2 不激活从 X 到 Y 的任何后门路径（即 \((X \not\!\perp\!\!\!\perp Y \mid Z_1, Z_2)_{G_{\overline{Z_1}X(\overline{Z_2})}}\)）。（只要满足 (i)–(iii) 且 Z2 不含 X 的任何后代，这一条件即成立。）

（条件 4 的特例出现于 Z2 = ∅ 且 X 与 Z1 之间、Z1 与 Y 之间都没有后门路径时。）

证明。 条件 1 直接由规则 2（定理 3.4.1）得出。若 \((Y \not\!\perp\!\!\!\perp X)_{G_{\overline{X}}}\)，则可立即把 P(y | x̂) 变为 P(y | x)，故查询可识别。

条件 2。若 G 中没有从 X 到 Y 的有向路径，则 \((Y \not\!\perp\!\!\!\perp X)_{G_{\overline{X}}}\)，由规则 3，P(y | x̂) = P(y)，故查询可识别。

条件 3。若存在节点集 B 阻断从 X 到 Y 的所有后门路径（即 \((Y \not\!\perp\!\!\!\perp X \mid B)_{G_{\overline{X}}}\)），则可展开 \(P(y \mid x̂) = \sum_b P(y \mid x̂, b) P(b \mid x̂)\)，并由规则 2 把 P(y | x̂, b) 改写为 P(y | x, b)。若查询 (b | x̂) 可识别，则原查询也可识别。见图 4.1 的例子。

条件 4。若存在节点集 Z1 阻断从 X 到 Y 的所有有向路径，且存在节点集 Z2 阻断 \(G_{\overline{X}}\) 中 Y 与 Z1 之间的所有后门路径，则展开 \(P(y \mid x̂) = \sum_{Z_1, Z_2} P(y \mid x̂, z_1, z_2) P(z_1, z_2 \mid x̂)\)，并利用规则 2 把 P(y | x̂, z_1, z_2) 改写为 P(y | x̂, ẑ_1, z_2)，因为 \(G_{\overline{X}}\) 中 Z1 与 Y 之间的所有后门路径被 Z2 阻断。利用规则 3 把 P(y | x̂, ẑ_1, z_2) 化归为 P(y | ẑ_1, z_2)，因为 \((Y \not\!\perp\!\!\!\perp X \mid Z_1, Z_2)_{G_{\overline{Z_1}X(\overline{Z_2})}}\)。若 \((Y \not\!\perp\!\!\!\perp Z_1 \mid Z_2)_{G_{\overline{Z_1}}}\)，则 P(y | ẑ_1, z_2) 可改写为 P(y | z_1, z_2)。这一独立性不成立的唯一可能是存在从 Y 到 Z1 经 X 的路径，因为 \((Y \not\!\perp\!\!\!\perp Z_1 \mid Z_2)_{G_{\overline{X}Z_1}}\)。然而可对该路径做条件化并对 X 求和，从而得到 \(\sum_{x'} P(y \mid ẑ_1, z_2, x') P(x' \mid ẑ_1, z_2)\)。现在可由规则 2 把 P(y | ẑ_1, z_2, x') 改写为 P(y | z_1, z_2, x')。P(x' | ẑ_1, z_2) 项可由规则 3 改写为 P(x' | z_2)，因为 Z1 是 X 的子节点且图无环。该查询因此可改写为 \(\sum_{z_1, z_2} \sum_{x'} P(y \mid z_1, z_2, x') P(x' \mid z_2) P(z_1, z_2 \mid x̂)\)，且 \(P(z_1, z_2 \mid x̂) = P(z_2 \mid x̂) P(z_1 \mid x̂, z_2)\)。由于 Z2 由 X 的非后代组成，可由规则 3 把 P(z_2 | x̂) 改写为 P(z_2)。由于 Z2 阻断从 X 到 Z1 的所有后门路径，可由规则 2 把 P(z_1 | x̂, z_2) 改写为 P(z_1 | x, z_2)。整个查询因此可改写为 \(\sum_{z_1, z_2} \sum_{x'} P(y \mid z_1, z_2, x') P(x' \mid z_2) P(z_1 \mid x, z_2) P(z_2)\)。见图 4.2 的例子。

定理 4.3.2 定理 4.3.1 的四个条件中至少有一个对可识别性是必要的。即若图中这四个条件都不成立，则不存在有限的推理规则序列能把 P(y | x̂) 化归为无 hat 的表达式。Galles and Pearl (1995) 给出了定理 4.3.2 的证明。

4.3.2 效率评注（Remarks on Efficiency）

把定理 4.3.1 实现为识别系统化方法时，条件 3 与 4 似乎需要穷尽搜索。例如为了证明条件 3 不成立，需要证明不存在这样的阻断集 B。幸而下列定理允许我们显著裁剪搜索空间，使检验可行。

定理 4.3.3 若 P(b_i | x̂) 对某最小集 B_i 可识别，则 P(b_j | x̂) 对其他任何最小集 B_j 也可识别。

定理 4.3.3 允许我们用单个最小阻断集 B 来检验条件 3。若 B 满足条件 3 的要求，则查询可识别；否则条件 3 不可能满足。证明该定理时，使用下列引理。

引理 4.3.4 若查询 P(y | x̂) 可识别且节点集 Z 位于从 X 到 Y 的有向路径上，则查询 P(z | x̂) 可识别。

定理 4.3.5 设 Y1、Y2 为两节点子集，使得（i）Y1 中无节点是 X 的后代，或（ii）Y1 与 Y2 中所有节点都是 X 的后代，且 Y1 中所有节点都是 Y2 的非后代。若 P(y_1, y_2 | x̂) 存在化归序列（依据推论 3.4.2），则当且仅当 P(y_1 | x̂) 与 P(y_2 | x̂, y_1) 都存在化归序列。

定理 4.3.6 若存在集 Z1 满足条件 4 中对 Z1 的所有要求，则由 X 的子节点与 Y 的祖先交集构成的集合也满足条件 4 中对 Z1 的所有要求。

定理 4.3.6 消除了在定理 4.3.1 条件 4 中搜索 Z1 的需要。定理 4.3.3–4.3.6 的证明见 Galles and Pearl (1995)。

4.3.3 为控制查询推导闭式表达式（Deriving a Closed-Form Expression for Control Queries）

定理 4.3.1 定义的算法不仅确定控制查询的可识别性，还在闭式存在时提供以观测概率分布表示的 P(y | x̂) 的闭式表达，如下所示。

函数：ClosedForm(P(y | x̂))

输入：形如 P(y | x̂) 的控制查询。

输出：以仅含观测变量的闭式表达，或在查询不可识别时为 FAIL。

若 \((X \not\!\perp\!\!\!\perp Y)_G\)，则返回 P(y)。
否则，若 \((X \not\!\perp\!\!\!\perp Y)_{G_{\overline{X}}}\)，则返回 P(y | x)。
否则，令 B = BlockingSet(X, Y)，\(P_b\) = ClosedForm(P(b | x̂))；若 \(P_b \neq\) FAIL，则返回 \(\sum_b P(y \mid b, x) \cdot P_b\)。
否则，令 \(Z_1 = \text{Children}(X) \cap (Y \cup \text{Ancestors}(Y))\)，\(Z_3 = \text{BlockingSet}(X, Z_1)\)，\(Z_4 = \text{BlockingSet}(Z_1, Y)\)，\(Z_2 = Z_3 \cup Z_4\)；若 \(Y \not\!\perp\!\!\!\perp Z_1\) 且 \(X \not\!\perp\!\!\!\perp Z_2\)，则返回
\[ \sum_{z_1, z_2} \sum_{x'} P(y \mid z_1, z_2, x') P(x' \mid z_2) P(z_1 \mid x, z_2) P(z_2) \]
否则，返回 FAIL。

步骤 3 与 4 调用函数 BlockingSet(X, Y)，其选取 d-分开 X 与 Y 的节点集 Z。这种集合可在多项式时间内找到（Tian et al. 1998）。步骤 3 包含对算法自身 ClosedForm(b | x̂) 的递归调用，以获得因果效应 P(b | x̂) 的表达式。

4.3.4 小结（Summary）

定理 4.3.1 的诸条件扩展了可识别模型类（如图 3.8 所示）与不可识别模型（图 3.9）之间的边界。这些条件导致一个有效算法，确定形如 P(y | x̂)（X 为单一变量）的控制查询的可识别性。该算法进一步给出以可估概率表示的因果效应 P(y | x̂) 的闭式表达。

虽然 Shpitser and Pearl (2006a) 的完备性结果现在提供了可识别与不可识别模型之间边界的精确刻画（见定理 3.6.1 之后的讨论），定理 4.3.2 的诸条件仍可因其简洁性与直观吸引力而有用。

4.4 动态规划的识别（The Identification of Dynamic Plans）

本节基于 Pearl and Robins (1995)，关注含未测变量情况下规划的概率评估：每个规划由若干同时或顺次实施、且每个行动可能受规划中前辈行动影响的行动构成。我们建立一个图形准则，识别何时某规划效应可仅由测量变量的被动观测预测。当准则满足时，提供一个闭式表达用以计算规划达到指定目标的概率。

4.4.1 动机（Motivation）

为激励讨论，考虑 Robins (1993, apx. 2) 中讨论的例子（如图 4.4 所示）。变量 X1、X2 代表医师在两不同时刻对病人开的治疗，Z 代表第二位医师开 X2 时所参考的观测，Y 代表病人的存活。隐藏变量 U1、U2 分别代表病人部分病史与病人康复倾向。在艾滋病病人中可以找到此类结构的一个简单实现：Z 代表 PCP 发作，这是一种艾滋病病人的常见机会感染（如图所示对存活 Y 没有直接效应，因为它可被有效治疗），但它是指示病人潜在免疫状态 (U2) 的指标，而潜在免疫状态可致死亡。X1、X2 代表 bactrim（一种预防 PCP 的药 (Z) 并可能通过其他机制预防死亡）。医师用病人早期 PCP 病史 (U1) 决定是否开 X1，但其值未被记录用于数据分析。

我们面对的问题如下：假设已收集大量病人与医师行为数据，以（估计的）联合分布 P 的形式总结，所涉四个观测变量为 (X1, Z, X2, Y)。现有一位新病人就诊，我们希望确定（无条件）规划 (do(x1), do(x2)) 对存活的影响，其中 x1、x2 是 bactrim 在两预定时刻给药的两个预定量。

一般地，我们的问题相当于评估一个新规划，看其表现对应于那些决策策略不可见的其他规划者。医师并不提供所有促使他们开出某项治疗的输入的描述；他们所告诉我们的是：U1 在决定 X1 时被参考，Z、X1 在决定 X2 时被参考。但 U1 未被记录。在流行病学中，规划评估问题称为"含时变混杂的时变处理"（time-varying treatment with time-varying confounders, Robins 1993）。在人工智能应用中，对此类规划的评估使一个主体能通过观察另一主体的表现学会行动，即便另一主体的行动所基于的因素对学习者不可见。若允许学习者既行动又观察，则任务变得容易得多：因果图的拓扑也可被（至少部分地）推断，某些原本不可识别行动的效应也可被确定。

正如行动识别中那样（第 3 章），规划识别中的主要问题是控制"混杂"——即触发行动同时影响响应的未观察因子。但规划识别进一步复杂化，因为某些混杂（如 Z）受控制变量影响。如第 3 章所指，统计实验设计中"致命的罪"之一（Cox 1958, p. 48）是调整此类变量，因为调整位于行动与后果之间的变量会干扰我们想要估计的量——该行动的总效应。本节给出的识别方法将绕过这些困难。

图 4.4 中还有两点值得注意。第一，若把控制变量 X1、X2 当作单一复合变量 X，则量 P(y | x̂1, x̂2) 无法计算。对应于这种复合的图会把 X 与 Y 通过箭头与经过 U 的弧同时相连，因而形成弓形图（见图 3.9），这是不可识别的标志。第二，P(y | x̂1) 单独也不可识别，因为 U1 在链 X ← Z 上（位于从 X 到 Y 的有向路径上）形成弓形图（见 3.5 节讨论）。

使 P(y | x̂1, x̂2) 可识别的特征是 P(y | x1, z, x̂2) 的可识别性——即单做 do(X2 = x2) 行动时、给定此行动当时可获得的观测的因果效应。这可由后门准则验证，因为 {X1, Z} 阻断 X2 与 Y 之间的所有后门路径。因此 P(y | x̂1, x̂2) 的可识别性可直接由下式证明：

\[ P(y \mid x̂_1, x̂_2) = P(y \mid x_1, x̂_2) \quad (4.1) \]

\[ = \sum_z P(y \mid z, x_1, x̂_2) P(z \mid x_1) \quad (4.2) \]

\[ = \sum_z P(y \mid z, x_1, x_2) P(z \mid x_1) \quad (4.3) \]

其中 (4.1) 与 (4.3) 由规则 2 得出，(4.2) 由规则 3 得出。这些规则适用的子图见图 4.5（在 4.4.3 节）。

该推导还凸显条件规划如何评估。假设我们希望评估规划 {do(X1 = x1), do(X2 = g(x1, z))} 的效应。按 4.2 节的分析，写出

\[ P(y \mid do(X_1 = x_1), do(X_2 = g(x_1, z))) \]

\[ = P(y \mid x_1, do(X_2 = g(x_1, z))) \]

\[ = \sum_z P(y \mid z, x_1, do(X_2 = g(x_1, z))) P(z \mid x_1) \]

\[ = \sum_z P(y \mid z, x_1, x_2) P(z \mid x_1) |_{x_2 = g(x_1, z)} \]

同样，该条件规划的可识别性有赖于表达式 P(y | z, x_1, x̂2) 的可识别性；后者因 {X1, Z} 阻断 X2 与 Y 之间的所有后门路径，可化归为 P(y | z, x_1, x_2)。（参见 11.4.1 节。）

下节发展的准则将让我们能以图形方法识别：某一规划能否从观测变量的联合分布评估，若能，则识别应测量哪些协变量、如何调整。

4.4.2 规划识别：符号与假设（Plan Identification: Notation and Assumptions）

我们的起点是一个知识规格方案，形式为因果图（如图 4.4 所示），它对分析者关于相关数据生成过程的定性理解作出概括。

符号一个控制问题由有向无环图 (DAG) G 构成，顶点集 V 分为四个不相交集 V = {X, Z, U, Y}，其中：

X = 控制变量集（暴露、干预、处理等）；
Z = 观测变量集，常称为协变量；
U = 未观测（潜在）变量集；
Y = 一个结果变量。

我们令控制变量有序 \(X = \{X_1, X_2, \ldots, X_n\}\)，使得每个 \(X_k\) 在 G 中是 \(\{X_{k+1}, \ldots, X_n\}\) 中任意元素的非后代，并令结果 Y 是 \(X_n\) 的后代。令 \(N_k\) 代表在集合 \(\{X_k, X_{k+1}, \ldots, X_n\}\) 中任何元素的非后代中的观测节点集。一个规划是对控制变量的有序赋值序列 \((\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n)\)，其中 \(\hat{x}_k\) 意为"X_k 被设为 \(x_k\)"。一个条件规划是有序序列 \((ĝ_1(z_1), ĝ_2(z_2), \ldots, ĝ_n(z_n))\)，其中每个 \(g_k\) 是从某集 \(Z_k\) 到 \(X_k\) 的函数，且 \(ĝ_k(z_k)\) 代表"每当 \(Z_k\) 取值 \(z_k\) 时把 \(X_k\) 设为 \(g_k(z_k)\)"。每个 \(g_k(z_k)\) 函数的支撑 \(Z_k\) 不得包含 G 中 \(X_k\) 的任何后代。

我们的问题是评估一个无条件规划6，通过计算 \(P(y \mid x̂_1, x̂_2, \ldots, x̂_n)\)，它代表规划 \((x̂_1, \ldots, x̂_n)\) 对结果变量 Y 的影响。表达式 \(P(y \mid x̂_1, x̂_2, \ldots, x̂_n)\) 在 G 中可识别，若对每个赋值 \((x̂_1, x̂_2, \ldots, x̂_n)\)，该表达式可由观测变量 {X, Y, Z} 的联合分布唯一确定。一个控制问题可识别，当且仅当 \(P(y \mid x̂_1, x̂_2, \ldots, x̂_n)\) 可识别。

我们的主要可识别性准则在定理 4.4.1 与 4.4.6 中给出。它们在 G 的若干子图上调用序贯后门测试，其中指向未来行动的箭头被删去。我们用 \(G_{\overline{X}}\) 与 \(G_{\underline{X}}\) 分别代表从 G 中删去所有指向（源于）X 中节点的箭头后得到的图。为表示入向与出向箭头的删除，使用符号 \(G_{\overline{X}\underline{Z}}\)。最后，表达式 \(P(y \mid x̂, z) = P(y, z \mid x̂) / P(z \mid x̂)\) 代表给定 \(Z = z\) 被观测且 X 保持为 x 时 \(Y = y\) 的概率。

4.4.3 规划识别：序贯后门准则（Plan Identification: The Sequential Back-Door Criterion）

定理 4.4.1（Pearl and Robins 1995） 若对每个 \(1 \leq k \leq n\)，存在满足下列（序贯后门）条件的协变量集 \(Z_k\)，则概率 \(P(y \mid x̂_1, \ldots, x̂_n)\) 可识别：

\[ Z_k \subseteq N_k \quad (4.4) \]

（即 \(Z_k\) 由 \(\{X_k, X_{k+1}, \ldots, X_n\}\) 的非后代组成），且

\[ (Y \not\!\perp\!\!\!\perp X_k \mid X_1, \ldots, X_{k-1}, Z_1, Z_2, \ldots, Z_k)_{G_{\overline{X}_k, X_{k+1}, \ldots, X_n}} \quad (4.5) \]

当这些条件满足时，规划的效应由下式给出：

\[ P(y \mid x̂_1, \ldots, x̂_n) = \sum_{z_1, \ldots, z_n} P(y \mid z_1, \ldots, z_n, x_1, \ldots, x_n) \prod_{k=1}^{n} P(z_k \mid z_1, \ldots, z_{k-1}, x_1, \ldots, x_{k-1}) \quad (4.6) \]

在给出证明之前，演示定理 4.4.1 如何用于检验图 4.4 所示控制问题的可识别性。首先，证明 \(P(y \mid x̂_1, x̂_2)\) 不测量 Z 不可识别；换言之，序列 \(Z_1 = \emptyset, Z_2 = \emptyset\) 不满足条件 (4.4)–(4.5)。由 (4.5) 编码的两个 d-分离检验为

\[ (Y \not\!\perp\!\!\!\perp X_1)_{G_{\overline{X}_1, X_2}} \text{ 与 } (Y \not\!\perp\!\!\!\perp X_2 \mid X_1)_{G_{\overline{X}_2}} \]

与这两个检验相关联的两个子图见图 4.5。可见 \((Y \not\!\perp\!\!\!\perp X_1)\) 在 \(G_{\overline{X}_1, X_2}\) 中成立，但 \((Y \not\!\perp\!\!\!\perp X_2 \mid X_1)\) 在 \(G_{\overline{X}_2}\) 中不成立。因此为通过检验，必须有 \(Z_1 = \{Z\}\) 或 \(Z_2 = \{Z\}\)；由于 Z 是 \(X_1\) 的后代，只有第二种选择满足 (4.4)。适用于序列 \(Z_1 = \emptyset, Z_2 = \{Z\}\) 的检验为 \((Y \not\!\perp\!\!\!\perp X_1)_{G_{\overline{X}_1, X_2}}\) 与 \((Y \not\!\perp\!\!\!\perp X_2 \mid X_1, Z)_{G_{\overline{X}_2}}\)。图 4.5 表明两个检验都得到满足，因为 \(\{X_1, Z\}\) 在 \(G_{\overline{X}_2}\) 中把 Y 与 \(X_2\) d-分开。

满足条件 (4.4)–(4.5) 后，等式 (4.6) 给出规划 \((x̂_1, x̂_2)\) 对 Y 的效应公式：

\[ P(y \mid x̂_1, x̂_2) = \sum_z P(y \mid z, x_1, x_2) P(z \mid x_1) \quad (4.7) \]

与 (4.3) 一致。

自然会问：序列 \(Z_1 = \emptyset, Z_2 = \{Z\}\) 是否无需穷尽搜索即可识别。推论 4.4.5 与定理 4.4.6 将回答此问题。

定理 4.4.1 的证明 此处给出的证明基于 do 演算（定理 3.4.1）的推理规则，便于把因果效应公式化归为无 hat 表达式。Pearl and Robins (1995) 给出另一种基于潜在变量消元的证明。

步骤 1。条件 \(Z_k \subseteq N_k\) 蕴含对所有 \(j \geq k\)，\(Z_k \subseteq N_j\)。因此

\[ P(z_k \mid z_1, \ldots, z_{k-1}, x_1, \ldots, x_{k-1}, x̂_k, x̂_{k+1}, \ldots, x̂_n) \]

\[ = P(z_k \mid z_1, \ldots, z_{k-1}, x_1, \ldots, x_{k-1}) \]

这是因为 \(\{Z_1, \ldots, Z_k, X_1, \ldots, X_{k-1}\}\) 中的任何节点都不可能是 \(\{X_k, \ldots, X_n\}\) 中任何节点的后代。故规则 3 允许我们从表达式中删除 hat 变量。

步骤 2。条件 (4.5) 允许我们调用规则 2 并写出：

\[ P(y \mid z_1, \ldots, z_k, x_1, \ldots, x_{k-1}, x̂_k, x̂_{k+1}, \ldots, x̂_n) \]

\[ = P(y \mid z_1, \ldots, z_k, x_1, \ldots, x_{k-1}, x_k, x̂_{k+1}, \ldots, x̂_n) \]

因此有

\[ P(y \mid x̂_1, \ldots, x̂_n) \]

\[ = \sum_{z_1} P(y \mid z_1, x̂_1, x̂_2, \ldots, x̂_n) P(z_1 \mid x̂_1, \ldots, x̂_n) \]

\[ = \sum_{z_1} P(y \mid z_1, x_1, x̂_2, \ldots, x̂_n) P(z_1) \]

\[ = \sum_{z_2, z_1} P(y \mid z_1, z_2, x_1, x̂_2, \ldots, x̂_n) P(z_1) P(z_2 \mid z_1, x_1, x̂_2, \ldots, x̂_n) \]

\[ = \sum_{z_2, z_1} P(y \mid z_1, z_2, x_1, x_2, x̂_3, \ldots, x̂_n) P(z_1) P(z_2 \mid z_1, x_1) \]

\[ \vdots \]

\[ = \sum_{z_n, \ldots, z_2, z_1} P(y \mid z_1, \ldots, z_n, x_1, \ldots, x_n) \]

\[ \cdot P(z_1) P(z_2 \mid z_1, x_1) \cdots P(z_n \mid z_1, x_1, z_2, x_2, \ldots, z_{n-1}, x_{n-1}) \]

\[ = \sum_{z_1, \ldots, z_n} P(y \mid z_1, \ldots, z_n, x_1, \ldots, x_n) \prod_{k=1}^{n} P(z_k \mid z_1, \ldots, z_{k-1}, x_1, \ldots, x_{k-1}) \quad \blacksquare \]

定义 4.4.2（容许序列与 G-可识别） 满足条件 (4.4)–(4.5) 的任意协变量序列 \(Z_1, \ldots, Z_n\) 称为容许的；可由定理 4.4.1 准则识别的任意表达式 \(P(y \mid x̂_1, x̂_2, \ldots, x̂_n)\) 称为 G-可识别的。7

下列推论显然。

推论 4.4.3 一个控制问题 G-可识别，当且仅当它拥有容许序列。

注意，尽管 do 演算完备，G-可识别性是充分而非必要的，相对于 4.4.2 节定义的一般规划可识别性而言。原因是 (4.6) 化归的第 k 步回避了对 \(X_k\) 后代的变量 \(Z_k\)——即可受行动 do(\(X_k = x_k\)) 影响的变量——的条件化。在某些因果结构中，因果效应的可识别性要求对这种变量做条件化，如前门准则（定理 3.3.4）所示。

4.4.4 规划识别：流程（Plan Identification: A Procedure）

定理 4.4.1 给出规划可识别性的一个声明式条件。它可以用来裁定对给定规划所提公式是否有效，但并未提供派生此类公式的有效流程，因为每个 \(Z_k\) 的选择未被程序式指定。可能性是某个不幸的满足 (4.4) 与 (4.5) 的 \(Z_k\) 选择可能阻止我们继续化归过程，即使另一化归序列可行。

图 4.6 给出说明。此处 W 是 \(Z_1\) 的容许选择，但若作此选择，我们将无法完成化归，因为找不到满足条件 (4.5) 的 \(Z_2\)：\((Y \not\!\perp\!\!\!\perp X_2 \mid X_1, W, Z_2)_{G_{\overline{X}_2}}\)。在此例中，更聪明的选择是 \(Z_1 = Z_2 = \emptyset\)，它同时满足 \((Y \not\!\perp\!\!\!\perp X_1 \mid \emptyset)_{G_{\overline{X}_1, X_2}}\) 与 \((Y \not\!\perp\!\!\!\perp X_2 \mid X_1, \emptyset)_{G_{\overline{X}_2}}\)。

避免像图 4.6 中那样的坏协变量选择的显然办法是坚持始终选取"最小" \(Z_k\)，即满足 (4.5) 且没有真子集满足 (5) 的协变量集。然而，由于通常有多个这样的最小集（见图 4.7），问题仍在：是否每个最小 \(Z_k\) 的选择都"安全"？我们能否确保不存在某个最小子序列 \(Z_1, \ldots, Z_k\) 的选择会阻止我们在某容许序列 \(Z_1^*, \ldots, Z_n^*\) 存在时找到容许的 \(Z_{k+1}\)？

下列结果保证每个最小子序列 \(Z_1, \ldots, Z_k\) 的安全性，从而为 G-可识别性提供有效检验。

定理 4.4.4 若存在容许序列 \(Z_1^*, \ldots, Z_n^*\)，则对每个最小容许子序列 \(Z_1, \ldots, Z_{k-1}\)，存在容许集 \(Z_k\)。

证明见 Pearl and Robins (1995)。

定理 4.4.4 现在给出 G-可识别性检验的有效决策流程，如下所示。

推论 4.4.5 一个控制问题 G-可识别，当且仅当下列算法以成功退出。

令 \(k = 1\)。
选取满足 (4.5) 的任意最小 \(Z_k \subseteq N_k\)。
若不存在这样的 \(Z_k\)，则以失败退出；否则令 \(k = k + 1\)。
若 \(k = n + 1\)，则以成功退出；否则返回步骤 2。

定理 4.4.4 的另一变体可被陈述，避免对最小集 \(Z_k\) 的搜索。这源自如下认识：若容许序列存在，则可以把定理 4.4.1 用显式协变量序列 \(W_1, W_2, \ldots, W_n\) 重写，这些序列可在 G 中轻松识别。

定理 4.4.6 概率 \(P(y \mid x̂_1, \ldots, x̂_n)\) G-可识别，当且仅当下列条件对每个 \(1 \leq k \leq n\) 成立：

\[ (Y \not\!\perp\!\!\!\perp X_k \mid X_1, \ldots, X_{k-1}, W_1, W_2, \ldots, W_k)_{G_{\overline{X}_k, X_{k+1}, \ldots, X_n}} \]

其中 \(W_k\) 是 G 中那些既是 \(\{X_k, X_{k+1}, \ldots, X_n\}\) 的非后代、又在 \(G_{\overline{X}_k, X_{k+1}, \ldots, X_n}\) 中以 Y 或 \(X_k\) 为后代的协变量集。此外，若该条件满足，则规划评估为

\[ P(y \mid x̂_1, \ldots, x̂_n) = \sum_{w_1, \ldots, w_n} P(y \mid w_1, \ldots, w_n, x_1, \ldots, x_n) \prod_{k=1}^{n} P(w_k \mid w_1, \ldots, w_{k-1}, x_1, \ldots, x_{k-1}) \quad (4.8) \]

定理 4.4.6 的证明以及若干推广见 Pearl and Robins (1995) 与 Robins (1997)。关于 G-可识别性的扩展见 Kuroki（与 Miyakawa 1999a,b, 2003；与其他人 2003；与 Cai 2004）。

读者应注意，虽然推论 4.4.5 与定理 4.4.6 在提供规划可识别性系统检验的意义上是程序式的，它们仍依赖排序。当 G 允许若干控制变量排序、且各排序与 G 中箭头一致时，容许序列可能在一种排序下存在而在另一排序下不存在。图 4.8 中的图 G 展示了这样一种情形。它由图 4.4 通过删除箭头 \(X_1 \to X_2\) 与 \(X_1 \to Z\) 得出，因此两个控制变量 (X1, X2) 可被任意排序。排序 (X1, X2) 仍接受以前的容许序列 \((\emptyset, Z)\)，但对排序 (X2, X1) 找不到容许序列。这可立即从 \(G_{\overline{X}_1}\) 中看出——根据 (4.5) 取 \(k = 1\)，我们需要找一组 Z 使 \(\{X_2, Z\}\) 把 Y 与 \(X_1\) d-分开。不存在这样的集。

该顺序敏感性的含义是：每当 G 允许控制变量的多个排序时，所有排序都需被检查才能确认某规划不是 G-可识别的。Shpitser and Pearl (2006b) 的图形准则绕过了这种搜索。

4.5.1 直接效应与总效应（Direct versus Total Effects）

迄今为止所分析的因果效应 P(y | x̂) 衡量变量（或变量集）X 对响应变量 Y 的总效应。在许多情形下，该量并未充分代表调查的目标，注意力反而聚焦于 X 对 Y 的直接效应。"直接效应"意指不被模型中其他变量介导的效应，或更精确地说，Y 对 X 变化的敏感度——当分析中其他一切因素被固定时。自然地，固定这些因素将切断从 X 到 Y 的所有因果路径，但不包括不被任何中介截断的直接链 \(X \to Y\)。

关于直接效应普遍存在的一个经典例子（见 Hesslow 1976；Cartwright 1989）讲述了一种避孕药的故事：该药被怀疑引起女性血栓，同时通过对降低怀孕率产生负面间接效应（怀孕已知会助长血栓）。本例中兴趣聚焦于药的直接效应，因为它代表一种稳定的生物学关系，不像总效应那样对婚姻状态与其他社会因素（影响女性怀孕或维持妊娠机会）保持不变。

另一类例子涉及雇佣中种族或性别歧视的法律纠纷。此处既非性别或种族对申请人资格的影响，也非资格对雇佣的影响是诉讼的目标。被告必须证明：性别与种族不影响雇佣决策，无论它们通过申请人资格对雇佣的间接效应是什么。

在所有这些例子中，固定介导变量的要求必须被解读为（假设性地）通过物理干预把这些变量设置为常数，而非通过条件化或调整（一种可追溯到 Fisher 1935 的误导性习惯）。例如，分别在怀孕与非怀孕妇女中测量避孕药与血栓的关联、再把结果合并，这并不充分。我们必须在（一组）在使用避孕药之前怀孕的妇女与（另一组）通过药物以外方式避孕的妇女中开展研究。原因是：通过条件化一个中间变量（本例中怀孕），即使 X 对 Y 没有直接效应，我们也可能在 X 与 Y 之间产生虚假关联。这可在模型 \(X \to Z \leftarrow U \to Y\) 中轻松展示——X 对 Y 没有直接效应。物理地保持 Z 为常数将不允许 X 与 Y 之间有关联（删除所有进入 Z 的箭头即可看出）。但若我们对 Z 条件化，则会通过 U（未观测）产生虚假关联，可能被解释为 X 对 Y 的直接效应。

4.5.2 直接效应：定义与识别（Direct Effects, Definition, and Identification）

控制问题中所有变量显然是项重大工程，甚或不可能。识别分析告诉我们：在何种条件下，即便没有这种控制，直接效应也能从非实验数据估计。用我们的 do(x) 符号（或简写 \(\hat{x}\)），直接效应可表达如下。

定义 4.5.1（直接效应） X 对 Y 的直接效应由 \(P(y \mid x̂, \hat{s}_{XY})\) 给出，其中 \(S_{XY}\) 是系统中除 X、Y 之外所有内生变量的集合。

我们看到直接效应的测量归属于一个理想实验室：科学家控制所有可能条件 \(S_{XY}\)，不需要知道图的结构，也不需要知道哪些变量真正是 X 与 Y 之间的中介。然而，若我们已知图的结构，则可以省去许多实验控制。首先，无须真正保持所有其他变量不变；保持 Y 的直接父节点（不包括 X）不变即足够。因此我们得到直接效应的下列等价定义。

推论 4.5.2 X 对 Y 的直接效应由 \(P(y \mid x̂, pa_{Y \setminus X})\) 给出，其中 \(pa_{Y \setminus X}\) 代表 Y 父节点（不包括 X）的任何实现。

显然，若 X 不出现在 Y 的方程中（等价地，X 不是 Y 的父节点），则 \(P(y \mid x̂, pa_{Y \setminus X})\) 定义 Y 上的一个常数分布，与 x 无关，从而与我们对"无直接效应"的理解吻合。一般地，假设 X 是 Y 的一个父节点，推论 4.5.2 蕴含：只要 \(P(y \mid pa_Y)\) 可识别，X 对 Y 的直接效应就可识别。此外，由于该表达式的条件化部分对应一个父节点为控制变量的规划，我们得出：直接效应可识别，只要对应父节点规划的效应可识别。我们现在可以使用 4.4 节的分析，把定理 4.4.1 与 4.4.6 的图形准则应用于直接效应分析。特别地，我们可以陈述下列定理。

定理 4.5.3 设 \(PA_Y = \{X_1, \ldots, X_k, \ldots, X_m\}\)。任何 \(X_k\) 对 Y 的直接效应可识别，只要推论 4.4.5 的条件在某容许变量排序下对规划 \((\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_m)\) 成立。直接效应则由 (4.8) 给出。

定理 4.5.3 蕴含：若 Y 一个父节点的效应可识别，则 Y 每个父节点的效应也可识别。当然效应的大小会因父节点而异，如 (4.8) 所示。

下列推论显然。

推论 4.5.4 设 \(X_j\) 是 Y 的父节点。\(X_j\) 对 Y 的直接效应一般是不可识别的，若存在某混杂弧包络任一链 \(X_k \to Y\)。

4.5.3 例：大学招生中的性别歧视（Example: Sex Discrimination in College Admission）

为说明此结果的使用，考虑 Berkeley 在研究生招生中涉嫌性别偏见的研究（Bickel et al. 1975），其中数据显示总体上男性申请人的录取率较高，但按系拆分时，女性申请人反而略占优势。解释为：女性申请人倾向于申请竞争更激烈的系（录取率低）；基于此发现，Berkeley 被免除歧视指控。这种反转的哲学面（称为辛普森悖论）将在第 6 章充分讨论。本节我们聚焦问题：在评估大学招生中性别歧视时，对系的调整是否恰当？传统智慧认为此类调整是恰当的，因为"我们知道申请热门系（申请者远多于名额的系）恰恰是导致拒绝的那类事情"（Cartwright 1983, p. 38），但我们将很快看到还应考虑其他因素。

假设 Berkeley 例子的相关因素按图 4.9 配置，变量解读如下：

\(X_1\)：申请人性别；
\(X_2\)：申请人所选系；
\(Z\)：申请人（入学前）的职业目标；
\(Y\)：录取结果（录取/拒绝）；
\(U\)：申请人能力（未记录）。

注意 U 影响申请人的职业目标，也影响录取结果 Y（比如通过未记录的语言能力）。

调整系选择相当于计算下列表达式：

\[ E_{x_2}[P(y \mid x̂_1, x_2)] = \sum_{x_2} P(y \mid x_1, x_2) P(x_2) \quad (4.9) \]

相比之下，\(X_1\) 对 Y 的直接效应，由 (4.7) 给出：

\[ P(y \mid x̂_1, x̂_2) = \sum_z P(y \mid z, x_1, x_2) P(z \mid x_1) \quad (4.10) \]

显然两个表达式可能差异甚大。第一个度量在给定某系申请人中性别的（平均）效应——这一量对"某些性别-系组合可能仅因为此类组合指示某种未记录的能力 (U) 而关联高录取率"的事实敏感。第二个表达式通过在两种性别中分别调整职业目标 (Z) 排除此类虚假关联。

为验证 (4.9) 不正确度量 \(X_1\) 对 Y 的直接效应，我们注意到该表达式在 \(X_1\) 与 Y 之间箭头缺失时仍依赖于 \(X_1\) 的取值。另一方面，(4.10) 在此类情形下对 \(x_1\) 变得不敏感——这一练习留给读者验证。8

为把该分析置于具体数值情境中，让我们想象一所学院由两个系 A、B 组成，皆仅按资格 Q 录取学生。再假设（i）申请人池由 100 名男性与 100 名女性组成，且（ii）每种性别各有 50 名高资格（被录取）与 50 名低资格（被拒绝）。显然，该学院不能被指控性别歧视。

然而若调整系而不顾资格，相当于用 (4.9) 估计性别对录取的效应，结果就会不同。假设系性质如此：所有且仅合格的男性申请人申请系 A，而所有女性申请系 B（见表 4.1）。

从表中可见，调整系会虚假指示偏向女性申请人的 37.5:25（即 3:2）偏差。未调整（有时称为"粗略"）分析在此例中恰好给出正确结果——男、女同为 50% 录取率——从而免除学校性别歧视指控。

我们的分析并非意在暗示 Bickel et al. (1975) 的 Berkeley 研究有缺陷，或在该研究中调整系不合理。其目的在于强调：除非仔细审视确保识别的因果假设，否则任何调整都不能保证对因果效应（直接或间接）给出无偏估计。定理 4.5.3 提供对这些假设的理解，并提供表达它们的数学手段。我们注意到，若申请人的资格未在数据中记录，则性别的直接效应不可识别，除非我们能测量某代理变量，使其与 Z 在图 4.9 中相对于 U 的关系一致。

4.5.4 自然直接效应（Natural Direct Effects）

熟悉结构方程模型 (SEM) 的读者会注意到，在线性系统中，直接效应 \(E(Y \mid x̂, pa_{Y \setminus X})\) 完全由 X 到 Y 链上的路径系数规定；因此直接效应独立于我们在 \(pa_{Y \setminus X}\) 处保持其他父节点的值。在非线性系统中，这些值一般会修改 X 对 Y 的效应，因而应被仔细选择以代表被分析的目标策略。例如，避孕药对血栓的直接影响很可能对怀孕与非怀孕妇女不同。流行病学家称此类差异为"效应修饰"（effect modification），并坚持在每个子群体中分别报告效应。

虽然直接效应对我们保持结果变量父节点的水平敏感，有时对这些水平取平均仍有意义。例如若我们希望评估某学校的歧视程度而不针对具体系，我们应替换受控差

\[ P(\text{admission} \mid \text{male}, \text{dept}) - P(\text{admission} \mid \text{female}, \text{dept}) \]

为该差在某系上平均。该平均应度量录取率在一个假想实验中的增加——实验指示所有女性候选人保留她们的系偏好，但把她们的性别认定（在申请表上）从女改为男。

概念上，我们可以把平均直接效应 \(DE_{x, x'}(Y)\) 定义为 Y 的期望变化：把 X 从 x 改为 x'，同时把一切介导因素保持在 do(x) 下所取的值。Robins and Greenland (1991) 把这一假想变化称为"纯"，Pearl (2001c) 称为"自然"——这正是立法者指示我们在种族或性别歧视案中考虑的："任何雇佣歧视案的核心问题是：若雇员是不同种族（年龄、性别、宗教、国籍等）且其他一切相同，雇主是否会采取同样行动？"（Carson versus Bethlehem Steel Corp., 70 FEP Cases 921, 7th Cir. (1996)）。

使用 3.51 等式的括号符号，Pearl (2001c) 给出"自然直接效应"的下列定义：

\[ DE_{x, x'}(Y) = E[(Y(x', Z(x))) - E(Y(x))] \quad (4.11) \]

此处 Z 代表除 X 外 Y 的所有父节点，表达式 \(Y(x', Z(x))\) 代表 Y 在同时执行"把 X 设为 x'"与"把 Z 设为在 X = x 时所取之值"两个操作下所达到的值。可见 \(DE_{x, x'}(Y)\)（从 x 到 x' 转移的自然直接效应）涉及嵌套反事实的概率，不能用 do(x) 算符写出。因此自然直接效应通常不可识别，即便借助理想的、受控实验（见 Robins and Greenland 1992 与 7.1 节的直观解释）。Pearl (2001c) 仍已显示，若某些"无混杂"假设被认为有效，9 自然直接效应可化归为

\[ DE_{x, x'}(Y) = \sum_z [E(Y \mid do(x', z)) - E(Y \mid do(x, z))] P(z \mid do(x)) \quad (4.12) \]

直观很简单：自然直接效应是受控直接效应以因果效应 \(P(z \mid do(x))\) 为权函数的加权平均。在这些假设下，4.4 节为识别控制特定规划 \(P(y \mid x̂_1, x̂_2, \ldots, x̂_n)\) 发展的序贯后门准则变得可适用。

特别地，表达式 (4.12) 在马尔可夫模型中既有效也可识别，其中所有 do 算符可由推论 3.2.6 消去；例如

\[ P(z \mid do(x)) = \sum_t P(z \mid x, pa_X = t) P(pa_X = t) \quad (4.13) \]

4.5.5 间接效应与介导公式（Indirect Effects and the Mediation Formula）

值得注意的是，自然直接效应的定义 (4.11) 可以轻易反过来，为间接效应提供一种可操作的定义——间接效应这一概念始终笼罩在神秘与争议之中，因为不可能用 do(x) 算符把 X 到 Y 的直接链禁用，从而让 X 单独经间接路径影响 Y。

自然间接效应 IE（从 x 到 x' 的转移）定义为 Y 的期望变化——保持 X 恒为 X = x，同时把 Z 改为在 X = x' 时所取之值。形式地（Pearl 2001c）：

\[ IE_{x, x'}(Y) = E[(Y(x, Z(x'))) - E(Y(x))] \quad (4.14) \]

可见一般而言，一转移的总效应 TE 等于该转移的直接效应与反向转移的间接效应之差：

\[ TE_{x, x'}(Y) = E(Y(x') - Y(x)) = DE_{x, x'}(Y) - IE_{x', x}(Y) \quad (4.15) \]

在线性模型中，反转转移等价于效应取负号，(4.15) 为标准加性公式提供形式辩护：

\[ TE_{x, x'}(Y) = DE_{x, x'}(Y) + IE_{x, x'}(Y) \quad (4.16) \]

在无混杂介导的简单情形下，自然直接效应与间接效应可由称为介导公式的两条回归方程估计：

\[ DE_{x, x'}(Y) = \sum_z [E(Y \mid x', z) - E(Y \mid x, z)] P(z \mid x) \quad (4.17) \]

\[ IE_{x, x'}(Y) = \sum_z E(Y \mid x, z) [P(z \mid x') - P(z \mid x)] \quad (4.18) \]

它们提供介导效应两种普遍适用的度量，可用于任意非线性系统、任意分布、任意类型的变量（Pearl 2009b, 2010b）。

注意间接效应有清晰的政策含义。例如在雇佣歧视情境中，政策制定者可能对预测工作队伍中性别比例感兴趣——若性别偏见被消除，所有申请人均被平等对待，比如说，与男性目前所受对待相同。这一数量将由性别的间接效应（介导教育、能力等可能因性别而异的因素）给出（见 Pearl 2001c, 2010b 中的更多例子）。

更一般地，政策制定者可能对激励特定下层雇员的影响、或对在相互作用主体网络内控制消息路由的影响感兴趣。此类应用激发路径特定效应（path-specific effects）的分析，即 X 经一组选定路径对 Y 的效应（Avin et al. 2005）。

在所有这些情形中，政策干预调用的是对要感知的信号的选择，而非对要固定的变量的选择。因此 Pearl (2001c) 建议：信号感知比操纵更基本——后者不过是实验设置中粗略地激发前者的方式（见 11.4.5 节）。关于经验可检验反事实的一般刻画见第 7、9、11 章，以及 Shpitser and Pearl (2007)。

本章个人批注

本章在第 3 章的 do 演算基础上向外扩展，主要解决了三个问题：（一）把 do 演算的应用从原子干预 do(x) 推广到条件策略与随机策略；（二）给出一类半马尔可夫模型上单变量因果效应的图形识别准则（定理 4.3.1）；（三）把"规划"——含顺次或同时行动的策略——的识别与效应分解系统化（4.4 节），并把直接/间接效应的分离（4.5 节）作为它的应用。

第一点（4.1 节）我读来更像是哲学铺陈，但 Pearl 的本意很明确——把行动从概率论中"外来实体"的地位中解救出来，给它一个一阶的语义 (do 算符)，而不是把它降级为决策者纳入概率分布的辅助变量。Pearl 反复强调，正是因果模型让研究者无需事先枚举所有可能干预，这是因果建模与"决策分析传统"（影响图传统）的分水岭。我认同这一点，但该优势的另一面是——do 算符的代价是把"模型必须被解释为因果的"作为前提，而影响图文献正是不愿做出这一承诺。Pearl 在 4.1.2 节的脚注中明确指出这一点，认为因果断言才是让决策变量能作为根节点被处理、并构造正确决策树的基础。

第二点（4.3 节）的定理 4.3.1 是一组比后门、前门更宽的图形识别条件，给出的是充分条件；定理 4.3.2 把它们的必要性联系到 do 演算的完备性（虽在本节给出的形式中只对应 Galles-Pearl 的早期结果；后被 Shpitser-Pearl 进一步完备化为 3.6.1 节讨论的内容）。4.3.2 节的几个"效率"定理——4.3.3、4.3.4、4.3.5、4.3.6——本质上是把穷尽搜索转化为多项式时间检验：4.3.3 让条件 3 的检验只需看一个最小阻断集；4.3.6 让条件 4 的 Z1 直接由 X 的子节点 ∩ Y 的祖先给出。4.3.3 节的 ClosedForm 伪代码把这套机制落到可执行的算法上。

第三点（4.4 节）我觉得是本章最有技术含量的部分。定理 4.4.1（序贯后门）的关键观察是：当我们评估规划 (do(x1), do(x2), …) 时，应当在每一时间步的协变量 \(Z_k\) 上做调整——这些 \(Z_k\) 必须是 \(\{X_k, X_{k+1}, …, X_n\}\) 的非后代（条件 (4.4)），并且必须阻断某些特定子图中的后门路径（条件 (4.5)）。这是 Pearl 反复警告过的"统计实验设计中的大罪"——调整位于处理与结果之间的变量——在规划情形下的精细版本：可以调整受前期处理影响的协变量 Z（如 AIDS 例中的 PCP 指标 Z），但必须按恰当的序贯后门条件。

我特别注意到 4.4.1 节 AIDS 例（Robins 1993）的两条注记：第一，把 X1、X2 当作单一复合变量 X 会人为制造一个弓形图，从而把可识别问题误判为不可识别——这是"分解规划到组成行动"的具体例证；第二，P(y | x̂1) 单独不可识别，但 P(y | x̂1, x̂2) 可识别——这是顺序识别在规划层面的具体表现。这两条注记看似简单，却给出了从 do 演算公式 (4.1)–(4.3) 出发到定理 4.4.1 的具体桥梁。

4.4.3 节的"可识别性定理 4.4.1"与"算法"4.4.5 之间的张力让我意识到：对规划而言，"声明式条件"与"有效流程"是两个不同的问题。定理 4.4.1 给出的条件是声明式——只判定一个给定的 Z1, …, Zn 序列是否容许——但若 Z1 选错（图 4.6 的 W），后续步骤会失败，即使另一个选择 Z1 = ∅ 可行。定理 4.4.4 保证只要始终选最小 \(Z_k\) 即可避免这一陷阱，这才有推论 4.4.5 的有效算法。

4.4.4 节末尾对图 4.8 的讨论凸显了一个微妙之处：G-可识别性是顺序敏感的，可能在 G 允许的某一排序下可识别而在另一排序下不可识别。Pearl 由此把这一缺陷归给"do 演算的完备性不蕴含 G-可识别性的完备性"——因为 4.4.3 节末尾已点明 G-可识别性只是充分而非必要条件。这与 4.3 节中 Shpitser-Pearl 的图形识别准则（被 Pearl 称为可避开这种搜索）形成对比。

4.5 节"直接效应"是 4.4 节的应用，但 Pearl 给出的定义（4.5.1）非常严格——固定系统中所有其他内生变量 \(S_{XY}\)。他立即指出推论 4.5.2：只需固定 Y 的直接父节点（不包括 X）即足够，并把"直接效应的可识别性"化归为"父节点规划的可识别性"。这就把直接效应识别问题纳入了 4.4 节的规划识别框架。Berkeley 招生例子（4.5.3 节）用经典反例说明：调整系选择（用 (4.9)）会高估性别偏差，因为女性的资格可能更强但选更难的系；而按 (4.10) 同时调整职业目标 Z 才能正确度量直接效应。Table 4.1 的虚构数字（37.5:25 vs 50%:50%）很直观地演示了这一点。

最后 4.5.4-4.5.5 节的"自然直接/间接效应"是本章与第 7 章（反事实）的接口：自然直接效应的定义 (4.11) 涉及嵌套反事实 \(Y(x', Z(x))\)，不能用 do 算符写出。但 Pearl 在 (4.12) 中给出关键识别结果：在某些"无混杂"假设下，嵌套反事实可化归为加权平均的受控直接效应；而在马尔可夫模型中 \(P(z \mid do(x))\) 可由 (4.13) 化归。"介导公式" (4.17)、(4.18) 给出自然直接/间接效应的两个回归估计，是把介导分析从线性系统推广到非线性、非参数系统的一般化——这为第 7 章与第 9 章的反事实可检验性铺好了语义地基。Pearl 在 4.5.5 节末尾把"信号感知 vs 操纵"提为比"do 算符"更基础的概念，留给第 11 章。

与上下章的衔接（一段话）

第 3 章建立了一套刻画"何时一个原子干预 do(x) 的效应可识别"的图形语言：后门准则、前门准则、do 演算三规则，以及在更一般意义下"半马尔可夫模型下 \(P(y \mid x̂)\) 可识别"的形式定义。本章把这套语言向三个方向扩展：（a）4.2 节把干预从原子 do(x) 推广到条件 do(X = g(z)) 与随机 \(P^*(x \mid z)\)——其效应识别最终被化归为 \(P(y \mid x̂, z)\) 的可识别性，因此整个第 3 章的图形准则都可复用；（b）4.3 节给出第 3 章识别分析未覆盖的一类半马尔可夫模型的图形准则（定理 4.3.1 的四个条件），其完备性由定理 4.3.2 通过 do 演算的完备性间接推出；（c）4.4 节把识别对象从单变量扩展到"规划"——顺次或同时实施的若干干预——并以序贯后门准则（定理 4.4.1）作为核心，给出 G-可识别性的有效算法（推论 4.4.5）与顺序独立的等价形式（定理 4.4.6）。第 4.5 节把 4.4 节的应用聚焦到"直接效应 vs 间接效应"这一经典问题，并演示了在嵌套反事实层次上的"自然直接效应"——为下一章（第 5 章）讨论线性结构方程与路径系数、再到第 7 章讨论反事实语义与可检验性搭建台阶。从作者的位置看，本章是第 3 章"识别"的延伸、是第 7 章"反事实"的前奏。