第 6 章：辛普森悖论、混杂与可压缩性（Simpson's Paradox, Confounding, and Collapsibility）

6.1 辛普森悖论：一则解剖（SIMPSON'S PARADOX: AN ANATOMY）

本章开头是一段前言，交代主题。混杂（confounding）是从经验数据中阐明因果推断的最根本障碍之一，因此关于混杂的考量贯穿于那些关键依赖因果推断的领域——流行病学、计量经济学、生物统计学、社会科学。然而，除了随机实验的标准分析之外，这一议题在多数统计学教材中要么被略去、要么完全不被讨论。原因很简单：混杂是一个因果概念，因而无法在标准统计模型中表达。当尝试做形式化统计分析时，往往导致混乱或复杂化，使非专家读者难以理解、更谈不上掌握。作者写本书的一个主要目标就是让这些混乱得到解决——让涉及控制混杂的问题被简化为简单的数学程序。第 3 章引入的数学技术最终凝结为检测混杂是否存在的简单图形程序，以及识别为获得无偏效应估计所应控制的变量。本章处理当我们试图用统计标准去定义与控制混杂时所遇到的困难。本节先分析辛普森悖论的有趣历史，把它作为放大镜来审视几代统计学家在用统计学语言捕捉因果概念时遇到的困难。6.2 节与 6.3 节考察用仅基于频率数据与可测统计关联的统计标准去替代因果的混杂定义是否可行；将看到尽管这种替代在一般情况下并不可行（6.3 节），但被称为"稳定"（stable）的某种非混杂条件确实能被赋予统计或半统计刻画（6.4 节）。这一刻画引出可操作的检验，类似于可压缩性检验，可在给定效应估计中警示研究者存在不稳定或偏倚（6.4.3 节）。6.5 节阐明可压缩性与无混杂之间的区别、混杂因子（confounders）与混杂之间的区别，以及表征混杂问题的结构方法与可交换性方法之间的区别。

随后正式进入 6.1 节：辛普森悖论的解剖。被称为辛普森悖论的反转效应在本书中已两次简短讨论——首次是在协变量选择问题（3.3 节）的关联中，然后是在直接效应的定义（4.5.3 节）的关联中。本节分析为什么反转效应曾（且至今仍）被视为悖论，以及为什么它的解决姗姗来迟。

6.1.1 一则非悖论的故事（A Tale of a Non-Paradox）

辛普森悖论（Simpson 1951；Blyth 1972）最早由 Pearson 于 1899 年发现（Aldrich 1995），指的是这样的现象：在某总体 p 中事件 C 增加事件 E 的概率，而在 p 的每一子总体中 C 都降低 E 的概率。换言之，若 F 与 ¬F 是刻画两个子总体的两个互补属性，我们可能遇见不等式 P(E|C) ≥ P(E|¬C)（6.1）而 P(E|C,F) ≤ P(E|¬C,F)（6.2）且 P(E|C,¬F) ≤ P(E|¬C,¬F)（6.3）。这种顺序反转或许不会让概率论的学生感到惊讶，但在给出因果解读时则成为悖论。例如，若把 C（暗指原因）关联于服用某种药物、E（暗指效应）关联于康复、F 关联于女性，则在（6.2）–（6.3）的因果解读下，药物似乎对男性与女性都有害却对总体有益（6.1 式）。直觉认为这样的结果不可能，且直觉是对的。图 6.1 的表格数值化展示了辛普森反转：总体而言，服药（C）患者的康复率为 50%，超过对照（¬C）组的 40%，因此表面上看药物更佳。然而当分别查看男性与女性的子表时，未治疗组在男性与女性中的康复率均比治疗组高 10%。Pearson 等（1899）与 Yule（1903）报告了较弱版本的悖论——（6.2）–（6.3）以等式成立；反转由 Cohen 与 Nagel（1934, p. 449）后来发现。对本书的读者来说，辛普森悖论的解释应当是清楚的，因为我们一直在小心地区分"看"与"做"。概率演算中的条件算符表示证据性条件"给定我们看到"，而 do(·) 算符被发明来表示因果性条件"给定我们做"。相应地，不等式 P(E|C) ≥ P(E|¬C) 并不是关于 C 对 E 有正效应的陈述（其正确写法是 P(E|do(C)) ≥ P(E|do(¬C))），而是关于 C 是 E 的正向证据，这一正向证据可能源自同时引起 C 与 E 的虚假混杂因子。在我们的例子中，药物表面上有益于总体，是因为男性（无论是否服药）比女性更常康复，且男性比女性更可能服药。确实，若发现一名性别未知的服药患者（C），我们能很好地推断该患者更可能是男性、因而更可能康复，这与（6.1）–（6.3）完全一致。处理这类潜在混杂因子的标准方法是"把它们固定"，即对任何可能同时引起 C 与 E 的因子做条件化。在我们的例子中，若把男性（¬F）视为同时影响康复（E）与服药（C）的原因，则药物的效应需对男女分别评估（如（6.2）–（6.3）所示）然后作适当加权平均。因此假设 F 是唯一的混杂因子，（6.2）–（6.3）正确地代表药物在各自人群中的效力，而（6.1）仅代表在无性别信息时它的证据性权重，悖论随之消散。关于术语，作者指出"把 F 固定"与"控制 F"在哲学家（如 Eells 1991）与统计学家（如 Pratt and Schlaifer 1988）的用语中都暗含外部干预，因此可能有误导。在统计分析中所有能做的只是通过考虑 F 值相等的案例来模拟"把 F 固定"——即对 F 与 ¬F 作条件化——这一操作作者称为"对 F 做调整"。关于 Cartwright（1983, p. 37）所述"第三因子 F 当且仅当 F 对 E 因果相关时才应被'固定'"的条件，正确的（后门）准则实际更为复杂（见定义 3.3.1）。

6.1.2 一则统计学苦恼的故事（A Tale of Statistical Agony）

至此，我们已经按现代因果性学者所能理解（或应当理解）的方式描述了悖论（见 Cartwright 1983；Holland and Rubin 1983；Greenland and Robins 1986；Pearl 1993b；Spirtes et al. 1993；Meek and Glymour 1994）。然而大多数统计学家不愿接受辛普森悖论源于因果考量这种说法。其一般态度如下：反转是真实且令人困扰的，因为它确实出现在数字中、且可能让统计学家得出错误的结论。若某事是真实的，则它不可能是因果的，因为因果性是一种未被精确定义的心智建构。因此悖论必然是一种统计现象，可用统计分析的工具被检测、被理解、被规避。例如《Encyclopedia of Statistical Sciences》（Agresti 1983）严厉警告辛普森悖论潜伏的危险，但通篇未提"原因"或"因果性"两词。《Encyclopedia of Biostatistics》（Dong 1998）与《The Cambridge Dictionary of Statistics in Medical Sciences》（Everitt 1995）持有同样的观念。作者所知在统计学文献中只有两篇文章明确把辛普森反转的特殊性归因于因果解读。第一篇是 Pearson 等（1899），其中这一现象的发现被如此表述：对那些坚持把一切相关都视为因果的人来说，"通过把两个密切相关的人种做人为混合可以在两个完全无相关的特征 A 与 B 之间产生相关"这一事实必然是相当大的冲击。受 Pearson 一生运动的影响，统计学家在可能时回避因果议论，半个多世纪以来反转现象被处理为 2×2 表的一种奇异的数学性质、被剥去了其因果起源。最终，Lindley 与 Novick（1981）从新的角度分析这一问题，作出了与因果性的第二次公开发表的联系：上一段引入了"原因"这一概念。一种可能性是使用因果的语言，而不是使用可交换性或总体识别的语言。我们没有选择这样做；也不讨论因果性，因为这一概念虽被广泛使用，却似乎并未被精确定义。辛普森反转历史中令人惊奇的是，从 Pearson 等到 Lindley 与 Novick，这么多写过这一主题的作者中，竟无一人敢问为什么这一现象应当引起我们注意、为什么它唤起惊讶。毕竟，看见概率在条件化后改变量级是司空见惯的，看见这些改变在（对这些概率作差并取混合后）翻转为符号反转也并非罕见。因此，若不是某种误导却顽固的幻象，方向反转的不等式究竟有什么令人震惊的？Pearson 理解震惊源自被扭曲的因果解读，他着手通过统计相关与列联表的棱镜去纠正（见第 10 章后的跋）。他的信徒们把他相当当真地接受下来，一些人甚至宣称因果不过是相关的一个种属（Niles 1922）。在这种对因果直觉的否认中，研究者常常别无选择，只能把辛普森反转归因于数据的某种邪恶特征，认为这是细致的研究者应当规避的。自 1950 年代以来已写出数十篇关于辛普森反转统计学方面的论文：一些处理其效应的大小（Blyth 1972；Zidek 1984），一些建立其消失的条件（Bishop et al. 1975；Whittemore 1978；Good and Mittal 1987；Wermuth 1987），甚至有人提议用 P(C|E) 替换 P(E|C) 作为治疗效力的测度（Barigelli and Scozzafava 1984）——反转似乎必须不惜一切代价避免。对这一主题的典型处理可见 Bishop、Fienberg、Holland（1975）这本有影响力的书。Bishop 等（1975, pp. 41–2）给出一个例子：产前护理量与婴儿存活之间的表面关联，在按参与研究的各诊所分别考虑数据时即消失。他们下结论："若我们只看这张（合并的）表，我们会错误地得出存活与所接受的护理量有关的结论。"具有讽刺意味的是，存活在所考虑的研究中确实与所接受的护理量有关。Bishop 等本意是说，若不加批判地看合并的表，我们会错误地得出存活与所接受的护理量之间有因果关系。然而由于 1970 年代必须回避因果词汇，像 Bishop 等研究者被迫使用"有关"或"关联"这样的统计替身，自然沦为该语言的局限之牺牲品；统计替身无法表达研究者想传达的因果关系。辛普森悖论让我们既能欣赏这一代统计学家的苦恼，也能欣赏他们的成就。受健康的因果直觉驱动，又在文化上被禁止承认它，且在数学上无法表达它，他们却仍设法从干枯的表格中提取意义、让统计方法成为经验科学的标准。然而辛普森悖论的调味最终毕竟不是统计性的。

6.1.3 因果性对可交换性（Causality versus Exchangeability）

Lindley 与 Novick（1981）首先论证了辛普森悖论的非统计性——即不存在能让研究者避免得出错误结论、或能指示哪一张表给出正确答案的统计标准。在贝叶斯决策理论的传统下，他们首先把注意力转向现象的实际方面并大胆提问：来了一位新病人，我们是用药还是不用药？等价地：我们查哪一张表，是合并表还是按性别分的表？"表面的答案"，Novick（1983, p. 45）承认，"是当我们知道病人性别为男或为女时我们不用药，但若性别未知则我们应当用药！显然该结论是荒唐的。"Lindley 与 Novick 然后作了一番冗长的非形式讨论，下结论（如同我们在 6.1.1 节所做的那样）说我们应该查按性别的表、不用药。接下来的步骤是问是否有某种附加的统计信息能一般性地把我们指向正确的表。Lindley 与 Novick 对这一问题的回答是否定的，他们展示了用完全相同的数据，我们有时应当作出相反的决定并查合并表。他们问：假设我们保持相同数字、仅改换数据背后的故事，设想 F 代表某种受 C 影响的属性——例如低血压，如图 6.2(b) 所示。通过查看图 6.2(b) 的图示，读者应当立即得出合并表代表我们想要的答案；我们不应在 F 上做条件，因为它位于我们希望评估的因果通路上。（等价地，通过比较具有相同治疗后血压的病人，我们遮蔽了药物通过两条通路之一带来康复的效应。）当两个因果模型生成相同的统计数据（图 6.2(a) 与 (b) 在观测上等价）时，一个让我们决定用药而另一个让我们不用药，那么显然我们的决定是由因果性的考量驱动，而非由统计性的考量驱动。一些读者也许会猜测决定涉及时间信息，注意到性别在治疗前确立而血压在治疗后确立。但情况并非如此；图 6.2(c) 表明 F 可在 C 之前或之后发生，且正确的决定仍应是查合并表（即不在 F 上做条件，从后门准则可看出）。我们刚才用例子证明了 6.1.1 节已知的事——即每一个与行动效应相关的问题必须由因果考量决定；统计信息单独不够。此外，选取正确表的问题是在 3.3 节用因果演算给出一般解的协变量选择问题的一个特例。Lindley 与 Novick 反倒在这一点上止步，并把两个例子间的差异归因于一个被称为可交换性（exchangeability）的元统计概念，最早由 De Finetti（1974）提出。可交换性涉及为对个体单位作预测而选择适当参考类或子总体的这一问题。例如保险公司希望用最接近新顾客特征的某类人的死亡率记录来估计新顾客的预期寿命。De Finetti 通过把关于相似性的判断翻译为关于概率的判断而给这一问题一个形式化的扭转。按这一准则，若联合概率分布 P(X1, …, Xn, Xn+1) 在置换下不变，则第 (n+1) 个单位在该群 n 个其他单位之间关于属性 X 是可交换的。对 De Finetti 而言，如何确立这种不变量是一个次要的心理问题；主要之点在于把这一心理活动的目标用数学表达式的形式加以刻画，以便于用科学术语交流与讨论。正是这一概念被 Lindley 与 Novick 试图引入辛普森反转现象，他们希望借此表明在 F=性别的例子中适当的子总体是男性与女性，而在 F=血压的例子中应考虑病人的整个总体。Lindley 与 Novick 文章的读者很快会意识到，尽管这些作者用可交换性与子总体的讨论来装点，他们实际所做的就是为直觉结论给出非形式的因果–效应论证。Meek 与 Glymour（1994）敏锐地观察到，Lindley 与 Novick 关于可交换性的讨论中唯一可理解的部分是基于因果考量的部分，这表明"为理解何时应当或不应当假设可交换性，对因果信念与概率相互作用的明确说明是必要的"。实际情况正是如此；实验研究中的可交换性依赖于对生成数据的机制的因果理解。是否应以前一组单位的先前响应来判断新单位的响应，取决于我们对新单位所将面对的实验条件是否与观察到该组时的条件相同的判断。我们不能使用合并表（图 6.1(a)）来决定新病人（性别未知）响应的原因是实验条件已经改变：该组的研究中病人按自身选择接受治疗，而新病人将按命令被给予治疗，也许违背其自身倾向。因此一种机制将在新实验中被改变，没有因果假设就无从判断在新情况下概率是否保持不变。我们可以使用图 6.2(b) 中血压例子的合并表的原因是，该设置中治疗选择机制的改变被假设对条件概率 P(E|C) 没有影响；即 C 被假设为外生。（这一点从图中没有任何后门路径清晰可见。）注意，若下一位病人是所研究组的成员（假设治疗与效应可被复制，且下一位病人性别与身份未知），同样的考量也成立：从总体中随机抽取的样本并不与该总体"可交换"，若我们让样本接受新的实验条件。必须考虑因果机制的改变以判定在新情形下可交换性是否成立。一旦考虑了因果机制，对可交换性的单独判断就不再需要。但 Lindley 与 Novick 为何选择如此拐弯抹角地说（通过可交换性），当他们本可直接公开地用因果关系来表达观点？他们部分地这样回答："[因果性]，虽然被广泛使用，但似乎并未被精确定义。"人们自然会问，当可交换性正是据以被判断的那些考量时，它怎么可能比后者更"被精确定义"？答案只有当我们考虑 1981 年统计学家可用的数学工具时才能被理解。当 Lindley 与 Novick 写下"因果性未被精确定义"时，他们真正想说的是因果性不能用他们所熟悉的任何数学形式写下。路径图、结构方程、Neyman–Rubin 符号作为数学语言的潜力在 1981 年一般未被承认，其理由如 5.1 与 7.4.3 节所述。确实，若 Lindley 与 Novick 希望用因果术语表达观点，他们甚至无法用数学表达"性别不受药物影响"这样简单却关键的事实，更不用说从该事实导出更不显然的真理。他们熟悉的唯一形式语言是概率演算，但正如我们已多次见到的那样，若无适当扩展，这一演算无法妥善处理因果关系。所幸过去十年间发展出的数学工具允许对辛普森悖论作更系统、更友好的解决。

6.1.4 悖论的解决（或：人是何种机器？）（A Paradox Resolved (Or: What Kind of Machine Is Man?)）

悖论与视错觉一样，常被心理学家用来揭示心智的内在运作，因为悖论源自（并放大）隐式假设集合间休眠的冲突。在辛普森悖论的情形中，我们有一场冲突发生在（i）"因果关系由概率演算定律支配"的假设与（ii）驱动我们因果直觉的一组隐式假设之间。第一个假设告诉我们（6.1）–（6.3）三个不等式是一致的，它甚至给我们一个概率模型来支持该声明（图 6.1）。第二个假设告诉我们不可能存在这样的奇迹药物：对男性与女性都有害却同时对总体有益。要解决悖论，我们必须（a）证明我们的因果直觉误导或不一致，或（b）否认"因果关系由标准概率演算定律支配"这一前提。正如读者至此想必已猜到，我们将选择第二个选项；我们在此与全书中立场一致，即因果性由其自身的逻辑支配，且这一逻辑要求概率演算的重大扩展。我们仍当阐释支配我们因果直觉的逻辑、且形式化地证明该逻辑排除这种奇迹药物的存在。do(·) 算符的逻辑完全适合此目的。让我们先把奇迹药物 C 对男性与女性都有害这一陈述翻译为因果演算中的形式陈述：P(E|do(C),F) ≤ P(E|do(¬C),F)（6.4）与 P(E|do(C),¬F) ≤ P(E|do(¬C),¬F)（6.5）。我们需要证明 C 必须对总体有害；即不等式 P(E|do(C)) ≥ P(E|do(¬C))（6.6）必须被证明与关于药物与性别我们已知的事不一致。

定理 6.1.1（sure-thing principle）：若一行动 C 在每个子总体中都增加事件 E 的概率，则只要该行动不改变子总体的分布，它也必在总体中增加 E 的概率。证明（在我们的例子情境下证明，其中总体按性别分为男性与女性；推广至多个划分是直接的）：在此情境下，我们需要证明（6.4）–（6.6）中不等式的反转与"药物对性别无影响"的假设 P(F|do(C)) = P(F|do(¬C)) = P(F)（6.7）不一致。展开 P(E|do(C)) 并用（6.7）得 P(E|do(C)) = P(E|do(C),F) P(F|do(C)) + P(E|do(C),¬F) P(¬F|do(C)) = P(E|do(C),F) P(F) + P(E|do(C),¬F) P(¬F)（6.8）。类似地，对 do(¬C) 得 P(E|do(¬C)) = P(E|do(¬C),F) P(F) + P(E|do(¬C),¬F) P(¬F)（6.9）。因（6.8）右端每一项都小于（6.9）的对应项，我们结论 P(E|do(C)) ≤ P(E|do(¬C))，证毕。我们由此看出因果直觉的来源：在直觉逻辑中一个明显但关键的假设是药物不影响性别。这解释了当 F 被解释为受药物影响的中间事件时直觉为何如此剧烈变化，如图 6.2(b) 的情形。在此情形下直觉逻辑告诉我们完全可以存在满足（6.4）–（6.6）三个不等式的药物，并且对 F 做调整是不恰当的。若 F 受 C 影响，则（6.8）不能被推导，且差 P(E|do(C)) − P(E|do(¬C)) 可正可负，取决于 P(F|do(C)) 与 P(F|do(¬C)) 的相对大小。设 C 与 E 无公共原因，则应直接从合并表（6.1 式）评估 C 的效力，而非从 F 特定的表（（6.2）–（6.3）式）。注意在我们的分析中我们既未假设数据来自随机化研究（即 P(E|do(C)) = P(E|C)）也未假设数据来自平衡研究（即 P(C|F) = P(C|¬F)）。相反，给定图 6.1 的表，我们的因果逻辑优雅地接受我们面对的是不平衡研究，但仍拒绝接受（6.4）–（6.6）的一致性。人也同样能清楚地从表中看出男性比女性更可能服药；然而当面对反转现象时，人仍会"震惊"地发现康复率的差异能被合并表翻转。从这些观察可得的结论是：人一般对率与比例（瞬时性的）视而不见，并不断搜寻因果关系（不变性的）。一旦人把比例解释为因果关系，他们就用因果演算继续处理这些关系，而非用比例的演算。若我们的心智由比例演算支配，则图 6.1 将完全不引发惊讶，辛普森悖论也将不再产生它所获得的那种关注。关于定理 6.1.1 的历史脚注：Savage（1954, p. 21）曾把 sure-thing principle 提为偏好的基本公设（针对行动），默认了定理中"不改变分布"的前提。Blyth（1972）利用这一遗漏设计了一个表面反例。定理 6.1.1 表明 sure-thing principle 无须被单独列为公设——它从"行动作为结构方程（或机制）的修饰符"的语义逻辑推出。Gibbard 与 Harper（1976）给出反事实分析。注意"不改变分布"的前提是概率性的；它允许行动改变个体单位的分类，只要子总体的相对大小保持不变。

6.2 为什么不存在混杂的统计检验，为什么许多人以为存在，为什么他们几乎是对的（WHY THERE IS NO STATISTICAL TEST FOR CONFOUNDING, WHY MANY THINK THERE IS, AND WHY THEY ARE ALMOST RIGHT）

6.2.1 引言（Introduction）

混杂是一个简单的概念。若我们打算通过考察两变量之间的统计关联来估计一个变量（X）对另一变量（Y）的效应，我们应确保该关联不是由所研究效应之外的因素所产生。虚假关联的存在——例如由外生变量的影响所致——被称为混杂，因为它倾向于混淆我们的阅读、并偏倚我们对所研究效应的估计。因此在概念上我们可说，当存在同时影响 X 与 Y 的第三变量 Z 时 X 与 Y 是被混杂的；这样的 Z 随后被称为 X 与 Y 的混杂因子。尽管这一概念如此简单，它仍抗拒了几十年的形式化处理，且有充分的理由：因为必须相对于"效应"与"影响"来定义"虚假关联"，而这两个概念本身抗拒数学公式化。把效应实证地定义为将在受控随机实验中成立的关联，这种定义难以用概率论的标准语言来表达，因为该理论处理的是静态条件、且不允许我们预测（即使从总体密度函数的完整说明出发）条件变化时——例如从观察性到受控研究——哪些关系会成立。这样的预测需要以因果性或反事实假设的形式给出额外信息，这些信息从密度函数不可辨（见 1.3 与 1.4 节）。本书所用的 do(·) 算符被专门设计来区分与管理这些额外信息。尽管有这些困难，流行病学家、生物统计学家、社会科学家、经济学家仍多次尝试用统计学术语定义混杂，部分因为统计定义——不含"效应"或"影响"的理论术语——能用传统数学形式表达，且部分因为这种定义可能引出混杂的实用检验，从而警示研究者可能的偏倚与调整的需要。这些尝试在以下基本准则上达成收敛。

关联性准则（Associational Criterion）：两个变量 X 与 Y 不被混杂，当且仅当每一个不受 X 影响的变量 Z 要么（U1）与 X 不关联，要么（U2）在 X 条件下与 Y 不关联。该准则及其若干变体与衍生（常省去"当且仅当"）可见于几乎每一本流行病学教科书（Schlesselman 1982；Rothman 1986；Rothman and Greenland 1998）以及几乎每一篇处理混杂的文章。事实上该准则已在文献中如此根深蒂固，以至于作者（Gail 1986；Hauck et al. 1991；Becher 1992；Steyer et al. 1996）常把它当作无混杂的定义，忘记了混杂之所以有用终究是因为它告诉我们关于效应偏倚的信息。Hauck 等（1991）把基于效应的混杂定义贬为"哲学性的"，并把两个关联测度之间的差视为"偏倚"。Grayson（1987）甚至更进一步，宣称变化参数方法（关联性准则的一个衍生）是混杂的唯一基本定义（见 Greenland et al. 1989 对 Grayson 立场的批评）。本节与下节的目的在于突出关联性准则及其衍生品的若干基本局限。将展示关联性准则既不能确保无偏效应估计、也不能从无偏性要求推出。在用例子演示统计与因果两种混杂概念之间缺乏逻辑联系之后，我们将定义一个更强的无偏性概念，称为"稳定"无偏性，并相对于它显示一个修正的统计准则是必要且充分的。必要性部分随后将给出稳定无偏性的实用检验，值得注意的是它不需要知道问题中所有潜在混杂因子。计量经济学中的相应困难集中在"外生性"概念（Engle et al. 1983；Leamer 1985；Aldrich 1993），它本质上就是"无混杂"（见 5.4.3 节）。最后，我们将论证用统计准则替代基于效应的混杂定义这一通行做法并非完全错误，因为稳定无偏性事实上（i）正是研究者一直在（且也许应当）追求的目标，且（ii）正是统计准则能检验的对象。

6.2.2 因果定义与关联性定义（Causal and Associational Definitions）

为便于讨论，我们先把无混杂的因果与统计定义化为数学形式。

定义 6.2.1（无混杂；因果定义）：设 M 为数据生成过程的一个因果模型——即对每个观测变量之值如何被决定的正式描述。记 P(y|do(x)) 为响应事件 Y=y 在假想干预 X=x 下的概率，按 M 计算。我们说 X 与 Y 在 M 中不被混杂，当且仅当 P(y|do(x)) = P(y|x)（6.10）对各自定义域中的所有 x、y 成立，其中 P(y|x) 是 M 所生成的条件概率。若（6.10）成立，我们说 P(y|x) 是无偏的。为本章讨论之目的，我们把这一因果定义取为"无混杂"这一表达式的含义。概率 P(y|do(x)) 在第 3 章（定义 3.2.1，亦缩写为 P(y| x̂)）中定义；可解释为对应于 X 被随机化的受控实验中条件概率 P*(Y=y|X=x)。回想这一概率可由因果模型 M 计算：直接通过模拟干预 do(X=x)，或（若 P(x,s) > 0）通过调整公式（（3.19）式）P(y|do(x)) = Σ_s P(y|x,s) P(s)，其中 S 代表满足后门准则（定义 3.3.1）的任何变量集（可观测也可不可观测）。等价地，P(y|do(x)) 可写成 P(Y(x)=y)，其中 Y(x) 为如（3.51）式或 Rubin（1974）所定义的潜在结果变量。我们要记住，do(·) 算符，从而效应估计与混杂，必须相对于一个具体的因果模型或数据生成模型 M 来定义，因为这些概念不是统计性的，不能用联合分布来定义。

定义 6.2.2（无混杂；关联性准则）：设 T 为问题中不受 X 影响的变量集合。我们说 X 与 Y 在 T 存在下不被混杂，若 T 的每一成员 Z 满足以下条件之一：（U1）Z 与 X 不关联（即 P(x|z) = P(x)）；（U2）Z 在 X 条件下与 Y 不关联（即 P(y|z,x) = P(y|x)）。反之，若 T 的任一成员违反（U1）与（U2）两者，我们说 X 与 Y 被混杂。注意定义 6.2.2 的关联性准则并非纯统计性的，因为它调用了"受影响"这一谓词，该谓词不可从概率辨出、而依赖于因果信息。把受治疗（或暴露）影响的变量排除在外不可避免，且很早就被承认为对观察性与实验性研究中治疗效应分析都必需的主观输入（Cox 1958, p. 48；Greenland and Neutra 1980）。我们将在全篇假设研究者具备区分受治疗 X 影响的变量与不受影响变量所需的知识。然后我们将考察，为建立混杂的检验，所需的额外因果知识（若有的话）是什么。

6.3 关联性准则如何失败（HOW THE ASSOCIATIONAL CRITERION FAILS）

我们将说一个无混杂准则是充分的（sufficient），若它在把一个案例归类为无混杂时从不出错；是必要的（necessary），若它在把一个案例归类为混杂时从不出错。定义 6.2.2 的关联性准则有多种方式不匹配定义 6.2.1 的因果准则。关于充分性与必要性的失败将依次讨论。

6.3.1 通过边缘性失败的充分性（Failing Sufficiency via Marginality）

定义 6.2.2 的准则基于对 T 的每一元素作个别检验。可能存在这样的情形：两个因子 Z1 与 Z2 共同混杂了 X 与 Y（按定义 6.2.2 的意义），而每个因子单独都满足（U1）或（U2）。这可能发生是因为 X 与 T 的个别成员之间的统计独立性并不保证 X 与从 T 取出的变量组之间的独立性。例如设 Z1 与 Z2 为两个独立公平硬币的结果，每个影响 X 与 Y。设 X 在 Z1 与 Z2 相等时发生，Y 在 Z1 与 Z2 不相等时发生。显然 X 与 Y 被 T={Z1,Z2} 高度混杂；事实上它们（负向）完全相关，而彼此之间并无因果影响。然而 Z1 与 Z2 各自既不与 X 关联、也不与 Y 关联；发现任一硬币的结果都不把 X（或 Y）的概率从其初值 1/2 改变。试图通过对 T 的任意子集替换（U1）、（U2）中的 Z 来修补定义 6.2.2 会过于限制性，因为作为整体看待时 X 与 Y 的所有原因集几乎必然不通过（U1）与（U2）的检验。在 6.5.2 节我们识别出若要恢复充分性则应替换（U1）、（U2）中 Z 的那些子集。

6.3.2 通过闭合世界假设失败的充分性（Failing Sufficiency via Closed-World Assumptions）

所谓"闭合世界"假设是指假设我们的模型涵盖所有相关变量、特别是对定义 6.2.2 而言是指变量集 T 由问题中所有潜在混杂因子组成。为了正确归类每个无混杂案例，关联性准则要求（U1）或（U2）被问题中每一个潜在混杂因子 Z 满足。在实际中，因为研究者永远无法确定某个给定的潜在混杂因子集 T 是否完全，关联性准则将把某些被混杂的案例错误地归类为无混杂。这一限制实际上意味着任何统计检验都不免是不充分的。因为实际检验总是涉及 T 的真子集，我们通过统计手段最多能期望得到的是必要性——即一个能在 T 的任意子集违反（U1）与（U2）这样的标准时正确把案例标为混杂的检验。这一前景定义 6.2.2 也未达到，下面我们即演示。

6.3.3 通过贫瘠代理失败的必要性（Failing Necessity via Barren Proxies）

例 6.3.1：设想一个情景，暴露（X）受一个人教育（E）的影响，疾病（Y）受暴露与年龄（A）共同影响，车辆类型（Z）受年龄（A）与教育（E）共同影响。这些关系示意于图 6.3。车辆类型变量（Z）违反定义 6.2.2 的两个条件，因为：（1）车辆类型指示教育、因而与暴露变量关联；且（2）车辆类型指示年龄、因而与暴露组与非暴露组中的疾病关联。然而在此例中 X 对 Y 的效应并不被混杂；一个人拥有的车型对暴露或疾病均无影响，仅是通过中介与两者关联的诸多无关属性之一。第 3 章的分析建立在此模型中（6.10）确实成立、且对 Z 做调整一般会产生有偏结果：Σ_z P(Y=y|X=x,Z=z) P(Z=z) ≠ P(Y=y|do(x))。我们由此看到基于统计关联的传统准则未能识别一个无偏效应、并会引诱人对错误的变量做调整。这一失败出现在我们把（U1）与（U2）应用于一个贫瘠代理——即一个对 X 或 Y 无影响、但通过中介代理了确有影响之因素的变量——时。读者也许不认为这一失败太严重，因为有经验的流行病学家很少把一个变量视为混杂因子，除非它被认为对 X 或 Y 有某种影响。尽管如此，对代理做调整是流行病学中的通行做法，应极其谨慎地从事（Greenland and Neutra 1980；Weinberg 1993）。为把这一谨慎制度化，关联性准则必须被修改以把贫瘠代理排除出检验集 T。这给出以下修正准则，其中 T 仅由（因果上）影响 Y 的变量（可能经由 X）组成。

定义 6.3.2（无混杂；修正关联性准则）：设 T 为问题中不受 X 影响、但可能影响 Y 的变量集合。我们说 X 与 Y 在 T 存在下不被混杂，当且仅当 T 的每一成员 Z 满足定义 6.2.2 的（U1）或（U2）。Stone（1993）与 Robins（1997）提出了定义 6.2.2 的替代修改，避免了贫瘠代理造成的问题而不要求人判断某变量是否对 Y 有影响。我们不把 T 限制为 Y 的潜在原因，而是让 T 仍为所有不受 X 影响的变量的集合，但要求 T 由两个不相交子集 T1 与 T2 构成使得（U1）T1 与 X 不关联，且（U2）T2 在 X 与 T1 条件下与 Y 不关联。例如在图 6.3 的模型中，选取 T1={A} 与 T2={E,Z} 可满足（U1）与（U2），因为（用 d-分离检验）A 与 X 独立、{E,Z} 在 {X,A} 条件下与 Y 独立。对关联性准则的这一修改进一步纠正了与边缘性相关的问题（见 6.3.1 节），因为（U1）与（U2）把 T1 与 T2 视为复合变量。然而这一修改仍未恢复必要性。因为集合 T={T1,T2} 必须包含所有不受 X 影响的变量（见注释 13）、且实际检验限于 T 的真子集，我们不能仅在（U1）与（U2）失败时就断定混杂存在，如 6.3.2 节所述。该准则作为混杂实际检测的基础仍不充分。我们现在讨论对用统计手段检测混杂的另一种根本性限制。

6.3.4 通过偶然抵消失败的必要性（Failing Necessity via Incidental Cancellations）

这里我们给出一个无贫瘠代理的例子，其中 X 对 Y 的效应（i）按（6.10）的意义未被混杂，但（ii）按定义 6.3.2 的修正关联性准则被判为混杂。例 6.3.3：考虑由线性方程 x = αz + e1（6.11）、y = βx + γz + e2（6.12）定义的因果模型，其中 e1 与 e2 为相关的未测变量，cov(e1,e2)=r，且 Z 为与 e1 或 e2 不相关的外生变量。与该模型对应的图示于图 6.4。X 对 Y 的效应量由路径系数 β 量化，它给出每单位 x 变化时 E(Y|do(x)) 的变化率。不难显示（假设变量已标准化）Y 对 X 的回归给出 y = (β + r + αγ) x + e，其中 cov(x,e)=0。因此每当等式 r = −αγ 成立时，Y 对 X 的回归系数 r_{YX} = β + r + αγ 是 β 的无偏估计，意味着 X 对 Y 的效应未被混杂（无需调整）。然而关联性条件（U1）与（U2）都被变量 Z 违反；若 α ≠ 0 则 Z 与 X 关联，且在 X 条件下与 Y 条件关联（除去使 r_{YZ·X}=0 的 γ 特殊值）。此例表明无偏性条件（定义 6.2.1）并不蕴涵定义 6.3.2 的修正准则。关联性准则可能把某些无混杂情形错误地归类为混杂，更糟糕的是，对虚假混杂因子（本例中的 Z）做调整会把偏倚引入效应估计。

6.4 稳定无偏性对偶发性无偏性（STABLE VERSUS INCIDENTAL UNBIASEDNESS）

6.4.1 动机（Motivation）

上一例中关联性准则的失败要求我们重新审视混杂与无偏性的概念及其按（6.10）的定义。例 6.3.3 中 X 与 Y 被归类为无混杂的原因是，通过设 r = −αγ，我们让代表虚假关联的 r 与由 Z 中介的虚假关联相互抵消。在实际中，这种完美抵消会是一个仅对应于特定研究条件组合的偶然事件，且当问题的参数（即 α、γ 与 r）经历微小变化时——例如研究在不同地点或不同时间重复时——它不会持续。相反，例 6.3.1 中发现的无混杂条件不表现出这种易变性。在此例中，（6.10）所表达的无偏性将继续成立，无论教育与暴露之间的连接强度、无论教育与年龄如何影响一个病人拥有的车型。我们把这种类型的无偏性称为稳定的（stable），因为它对参数变化具鲁棒性、且只要模型中因果连接的配置保持不变就持续存在。鉴于稳定与偶然无偏性之间的这一区别，我们需要重新审视是否应把一个准则视为不充分的（如果它把仅凭偶然抵消而成为无混杂的案例错误地归类为混杂），且更根本地，是否应坚持把这种奇特案例纳入无偏性的定义（鉴于（6.10）在这些案例中将被满足的脆弱条件）。尽管对这些问题的回答部分是选择的问题，但有充分证据表明我们对混杂的直觉由稳定无偏性的考量所驱动，而不仅由偶然无偏性。否则如何解释几代流行病学家与生物统计学家会拥护在涉及偶然抵消的案例中失败的混杂准则？在实用方面，未能检测到偶发无偏的情形不应在观察性研究中引入显著误差，因为这些情形是短暂的、且很可能被随后的研究在略不相同的条件下反驳。假设我们准备仅把无偏性归类于无偏性在参数变化下仍保持的情形，则留下两个问题：（1）我们如何给"稳定无偏性"这一新概念以非参数形式的形式化？（2）是否有实用的统计准则可用于检验稳定无偏性？两个问题都可用结构模型回答。第 3 章描述了一个图形准则，称为"后门准则"，用于在因果图中识别无偏性条件。在无调整（对测量协变量）的简单情形下，该准则指出，若 X 与 Y 之间每条包含指向 X 的箭头的路径也包含一对头对头的箭头（图 6.3 情形），则 X 与 Y 不被混杂；该准则在图中缺失链对应变量间因果连接缺失时有效。因为嵌入于缺失链的因果假设如此显式，后门准则有两个显著特征。第一，无需统计信息；图的拓扑足以可靠地判定效应是否未被混杂（按定义 6.2.1 的意义）且对某变量集的调整是否足以在混杂存在时去除混杂。第二，任何满足后门准则的模型事实上将对一整类无限的模型（或情形）满足（6.10），每个模型通过给图中因果连接赋不同参数生成。为说明，考虑图 6.3 所示的图。后门准则将识别（X,Y）对为无混杂，因为唯一以指向 X 的箭头结尾的路径是经过 (X,E,Z,A,Y) 的路径，而该路径在 Z 处包含两个头对头的箭头。此外，因为该准则仅基于图形关系，显然（X,Y）将继续被归类为无混杂，无论图中由箭头表示的因果关系的强度或类型。相反，考虑例 6.3.3 中图 6.4 的图，其中两条路径以指向 X 的箭头结尾。因为这些路径中无一条包含头对头的箭头，后门准则将不把 X 对 Y 的效应归类为无混杂，承认等式 r = −αγ（若成立）不代表稳定情形下的无偏性。后门准则对因果假设的脆弱性可在图 6.3 的情境中被演示。假设研究者怀疑变量 Z（车型）对结果变量 Y 有某种影响。这等同于在图中添加一条从 Z 到 Y 的箭头，把情境归类为混杂、并建议对 E（或 {A,Z}）做调整。然而若由于研究中特定的实验条件 Z 事实上对 Y 无影响，则不需要任何调整。若按后门准则建议做调整不引入偏倚，但若在无混杂情形中要求多余测量，则这种调整代价昂贵。所增加的代价被以下两点所正当化：（i）手中的因果信息（即 Z 可能影响 Y），与（ii）我们坚持确保稳定无偏性——即在所有与手中信息相容的情形下避免偏倚。

6.4.2 形式定义（Formal Definitions）

为形式化地区分稳定与偶发无偏性，我们使用以下一般定义。

定义 6.4.1（稳定无偏性）：设 A 为数据生成过程上的一组假设（或限制），且设 C_A 为满足 A 的一类因果模型。X 对 Y 的效应估计称为相对于 A 稳定无偏的，若 P(y|do(x)) = P(y|x) 在 C_A 中的每一个模型 M 中成立。相应地，我们说（X,Y）对相对于 A 稳定无混杂。通常用于指定因果模型的假设既可是参数性的也可是拓扑性的。例如，社会科学与经济学中使用的结构方程模型通常受线性与正态性假设的限制。在此情形下 C_A 由给方程中未指定参数及误差项协方差矩阵赋不同值所创建的所有模型组成。更弱的、非参数性的假设出现在我们仅指定因果图的拓扑结构但让误差分布与方程函数形式未定时。我们现在探索这些非参数假设的统计学推论。

定义 6.4.2（结构稳定无混杂）：设 A_D 为嵌入于因果图 D 中的一组假设。我们说 X 与 Y 相对于 A_D 稳定无混杂，若 P(y|do(x)) = P(y|x) 在 D 的每一种参数化下成立。所谓"参数化"我们意指给图中的链赋予函数、并给背景变量赋先验概率。第 3 章与第 5 章给出嵌入于因果图中假设的显式解读。简要地说，若 D 为与因果模型对应的图，则：（1）每一条缺失箭头（例如 X 与 Y 之间的）代表假设"在干预并固定 Y 的父节点后 X 对 Y 无影响"；（2）每一条 X 与 Y 之间的缺失双向链代表假设"X 与 Y 之间除 D 中显示者外无公共原因"。每当图 D 无环，后门准则为相对于 A_D 的稳定无混杂提供一个充分必要的检验。在不对协变量作调整的简单情形下，该准则化简为 X 与 Y 不存在公共祖先，无论观测与否。因此，我们有以下定理。

定理 6.4.3（共同原因原理）：设 A_D 为嵌入于无环因果图 D 中的一组假设。变量 X 与 Y 相对于 A_D 稳定无混杂，当且仅当 X 与 Y 在 D 中没有公共祖先。证明："若"部分由后门准则的有效性（定理 3.3.2）得出。"仅当"部分要求构造一个具体模型，其中每当 X 与 Y 在 D 中有公共祖先时（6.10）被违反。这可方便地用线性模型与 Wright 的路径系数规则完成。定理 6.4.3 提供稳定无混杂的一个充分必要条件而不诉诸统计数据，因为它完全依赖于嵌入于图中的信息。当然，图本身有可被检验的统计学推论（1.2.3 与 5.2.1 节），但这些检验并未唯一地指定图（见第 2 章与 5.2.3 节）。关于"公共祖先"的口语用法需排除那些与 Y 无其他连接仅经 X 的节点（例如图 6.3 中的 E），但应包括代表相关误差的潜变量。例如在图 6.4 中 X 与 Y 被理解为有两个公共祖先：第一个是 Z，第二个是（隐式的）潜变量——对应于 X 与 Y 之间的双向弧——它代表 e1 与 e2 之间的相关。然而，假设我们并不具备构造因果图所需的全部信息，而仅知道对每个变量 Z 而言假设 Z 对 Y 无影响是否安全、以及 X 对 Z 无影响是否安全。问题现在在于，这一更有限的信息连同统计数据，是否足以判定或排除（X,Y）对为稳定无混杂。答案是肯定的。

6.4.3 稳定无混杂的可操作检验（Operational Test for Stable No-Confounding）

定理 6.4.4（稳定无混杂准则）：设 A_Z 为以下假设：（i）数据由某个（未指定的）无环模型 M 生成，且（ii）Z 是 M 中不受 X 影响、但可能影响 Y 的变量。若定义 6.2.2 的两个关联性准则（U1）与（U2）都被违反，则（X,Y）相对于 A_Z 非稳定无混杂。证明：每当 X 与 Y 稳定无混杂时，定理 6.4.3 排除在对应于底层模型的图中存在 X 与 Y 的公共祖先。X 与 Y 不存在公共祖先又蕴涵每当 Z 满足 A_Z 时满足（U1）或（U2）。这是 d-分离规则（1.2.3 节）用于读取图所蕴含条件独立性关系的推论。定理 6.4.4 意味着传统的关联性准则（U1）与（U2）能被用在一个稳定无混杂的简单可操作检验中，一个不需要我们知道该域中变量的因果结构、甚或枚举相关变量集的检验。找到任何满足 A_Z 且违反（U1）与（U2）的变量 Z 就允许我们排除（X,Y）为稳定无混杂（虽然（X,Y）可能在研究的具体实验条件下偶然无混杂）。定理 6.4.4 传达了一个统计关联与混杂之间的形式联系，它不基于闭合世界假设。值得注意的是这一联系能在如此弱的附加假设下形成：一个关于某变量可能对 Y 有影响且不受 X 影响的定性假设，就足以产生稳定无混杂的一个必要统计检验。

6.5 混杂、可压缩性与可交换性（CONFOUNDING, COLLAPSIBILITY, AND EXCHANGEABILITY）

6.5.1 混杂与可压缩性（Confounding and Collapsibility）

定理 6.4.4 也建立了混杂与"可压缩性"（collapsibility）之间的形式联系——可压缩性是关联测度在省略某些变量时保持不变的标准。

定义 6.5.1（可压缩性）：设 g[P(x,y)] 为在联合分布 P(x,y) 中测度 X 与 Y 之间关联的任意泛函。我们说 g 在变量 Z 上可压缩，若 E_z g[P(x,y|z)] = g[P(x,y)]。不难证明若 g 为 P(y|x) 的任意线性泛函——例如风险差 P(y|x1) − P(y|x2)——则当 Z 与 X 不关联或在 X 条件下与 Y 不关联时可压缩性成立。因此可压缩性的任何违反蕴涵定义 6.2.2 的两个统计准则被违反，这也许就是为什么许多人相信不可压缩性与混杂密切相关。然而本章的例子表明这两个条件的违反既不是混杂的充分条件也不是必要条件。因此，不可压缩性与混杂一般而言是两个不同的概念；彼此互不蕴涵。一些作者倾向于相信这一区别是非线性效应测度 g（如优势比或似然比）的一种奇特性质，且"当效应测度是关于总体单位的期望时，混杂与不可压缩性在代数上等价"（Greenland 1998, p. 906）。本章显示即使在线性泛函中混杂与不可压缩性也无须一致。例如效应测度 P(y|x1) − P(y|x2)（风险差）在图 6.3 中对 Z 不可压缩（对图的几乎每一种参数化），然而该效应测度（对每一种参数化）是无混杂的。所谓"泛函"是指一个把实数指派给一组函数中任一函数的赋值。例如均值 E(X) = Σ_x x P(x) 是一个泛函，因为它把实数 E(X) 指派给每个概率函数 P(x)。混杂与可压缩性之间的逻辑联系通过稳定无混杂的概念而形成，如定义 6.4.2 与定理 6.4.4 所表述。因为可压缩性的任何违反都意味着定义 6.2.2 中（U1）与（U2）的违反，它也蕴涵（由定理 6.4.4）稳定无偏性（或稳定无混杂）的违反。因此我们可陈述以下推论。作者未在文献中见到其他这样的联系。

推论 6.5.2（稳定无混杂蕴涵可压缩性）：设 Z 为不受 X 影响、但可能影响 Y 的任意变量。设 g[P(x,y)] 为测度 X 与 Y 之间关联的任意线性泛函。若 g 在 Z 上不可压缩，则 X 与 Y 不稳定无混杂。这一推论为通过变化参数方法检验混杂性的通行做法提供了基本原理，即每当"粗略"关联测度 g[P(x,y)] 不等于 Z 特定的关联测度（对 Z 的水平作平均）时便把变量 Z 标为混杂因子（Breslow and Day 1980；Kleinbaum et al. 1982；Yanagawa 1984；Grayson 1987）。定理 6.4.4 提示支撑这一做法的直觉由对稳定（而非仅偶然）无混杂条件的追求所塑形。此外，定理 6.4.4 中的条件 A_Z 证明了某些作者所提的要求：混杂因子必须为 Y 的因果决定因素，而非仅与 Y 关联。

6.5.2 混杂对混杂因子（Confounding versus Confounders）

本章讨论的焦点一直放在混杂现象，我们把它等同于效应偏倚现象（定义 6.2.1）。文献中关于这一议题的许多工作关心混杂因子的有无，假定某些变量具有引发混杂的能力而某些则没有。若按字面解读，这一概念可能误导，在把一个变量标为混杂因子之前应谨慎。例如 Rothman and Greenland（1998, p. 120）给出这一定义："造成暴露组与未暴露组之间疾病频率差异的外来因素称为混杂因子"；他们接着说："一般而言，混杂因子必须与所研究的暴露和所研究的疾病同时关联才能引发混杂"（p. 121）。Rothman and Greenland 以"一般而言"修饰他们的陈述，且理由充分：我们已（在 6.3.1 节的两硬币例子中）见到问题中的每一单独变量都可以与所研究的暴露（X）和疾病（Y）都不关联，而 X 对 Y 的效应仍被混杂。类似情形也可见于图 6.5 所示的线性模型。虽然 Z 显然是 X 对 Y 效应的混杂因子、因此必须被控制，但 Z 与 Y 的关联在（X 的每一水平上）实际可能消失；类似地 Z 与 X 的关联可能消失。这可能发生若经由路径 Z → A → Y 的间接关联恰好抵消由箭头 Z → Y 携带的直接关联。这一抵消并不意味着混杂的不存在，因为路径 X ← E → Z → Y 未被阻断而 X ← E → Z ← A → Y 被阻断。因此 Z 是一个与疾病（Y）不关联的混杂因子。Rothman and Greenland 上述陈述背后的直觉可通过稳定性概念得到形式化阐释：一个与 X 或 Y 稳定不关联的变量可被安全地排除在调整之外。或者，Rothman and Greenland 的陈述可在不诉诸稳定性下通过非平凡充分集的概念（3.3 节）得到支持——非平凡充分集是一个通过调整能去除混杂偏倚的变量集。可以证明（见本节末）每一个这样的集合 S 作为整体确实必须与 X 关联、并在 X 条件下与 Y 条件关联。因此 Rothman–Greenland 条件对非平凡充分（即容许）集成立，但对集合中的个别变量不成立。这一条件的实际推论如下：若我们被给一个被声称为充分（用于通过调整去除偏倚）的变量集 S，则这一声称可被赋予一个必要的统计检验：S 作为复合变量必须既与 X 关联又在 X 条件下与 Y 关联。例如在图 6.5 中 S1={A,Z} 与 S2={E,Z} 是充分且非平凡的；两者都必须满足所述条件。然而需注意，尽管这一检验能筛除某些明显坏的被声称为充分的集合 S，它与充分性或混杂无关；它仅检验非平凡性，即对 S 做调整会改变 X 与 Y 之间的关联。当我们找到一个非平凡集 S 时仍不能确定关联是否原本就是无偏的（如在图 6.3 中）、或关联是否在调整后变为无偏。

必要性证明：要证明每当 Z 代表一个非平凡充分集 S 时（U1）与（U2）必须被违反，考虑 X 对 Y 无影响的情形。在此情形下混杂相当于 X 与 Y 之间一个非零关联。一个著名的条件独立性质，称为收缩（contraction）（1.1.5 节），指出（U1）X⫫S 连同充分性 X⫫Y|S 蕴涵非平凡性的违反 X⫫̸Y：X⫫S 且 X⫫Y|S ⇒ X⫫̸Y。类似地，另一种条件独立性质，称为相交（intersection），指出（U2）S⫫Y|X 连同充分性 X⫫Y|S 也蕴涵非平凡性的违反 X⫫̸Y：S⫫Y|X 且 X⫫Y|S ⇒ X⫫̸Y。因此（U1）与（U2）都必须被任何非平凡充分集 S 所违反。注意相交仅对严格正概率分布成立，这意味着 Rothman–Greenland 条件在某些变量间存在确定性关系时可能被违反。这可见于一个简单例子，其中 X 与 Y 都与第三变量 Z 处于一一对应的函数关系。显然 Z 是一个非平凡充分集但在 X 条件下与 Y 不关联；一旦我们知道 X 的值，Y 的概率被确定、且不再随得知 Z 的值而改变。

6.5.3 可交换性对混杂的结构分析（Exchangeability versus Structural Analysis of Confounding）

流行病学的学生悲叹关于混杂这一基本概念在文献中所受的令人困惑的待遇。一些作者承认了这种混乱（如 Greenland and Robins 1986；Wickramaratne and Holford 1987；Weinberg 1993）并提出看待这一问题的新方法，可能引向更系统的分析。Greenland 与 Robins（GR）特别地，已认识到我们在 6.2 与 6.3 节阐述的同一基本原理与结果。他们的分析是混杂文献中为数不多的亮点之一，因为它把混杂当作一个不可直接从观测数据测量的未知因果量。他们进一步承认（如 Miettinen and Cook 1981）混杂的有无不应等同于可压缩性的有无、且混杂不应被视为参数依赖现象。然而本章所呈现的结构分析在基本方式上不同于 GR 的方法，后者所追求的是基于"可交换性"判断的一种方法论。我们在 6.1 节遇到过相关概念的可交换性，Lindley 与 Novick（1981）曾试图用其观察辛普森悖论；GR 的可交换性观念更具体且更明显地可适用。概念上，混杂与可交换性的联系如下：若我们打算评估某种治疗的效应，我们应当确保治疗组与未治疗组之间任何响应差异都归因于治疗本身、而非归因于与治疗无关的两组间固有差异。换言之，两组必须在所有对响应变量有影响的特征上彼此相似。原则上我们可以在此打住混杂的定义，简单地宣称若治疗组与未治疗组在所有相关特征上彼此相似则治疗效应无混杂。然而这一定义过于文字化，因为它对"相似"与"相关"的解释高度敏感。为使其更少非形式，GR 用了 De Finetti 关于假想置换的扭转；研究者被指示不去判断两组是否相似，而是想象两组之间的假想交换（治疗组变为未治疗组，反之亦然），然后判断交换后观测到的数据与实际数据是否可区分。可以合理地问相对于直接判断两组是否实际等同而言，这一心理练习有何增益。增益有两方面。第一，人们相当擅长构想动态过程、能基于对响应治疗的过程及影响治疗选择的因素的基本理解而模拟这一交换场景的结果。第二，从关于相似性的判断转向关于概率的判断，使我们能把这些判断用概率符号表示、从而邀请概率演算的力量与可敬性。Greenland 与 Robins 通过把符号带近判断发源之地——人对因果过程的理解——而向这一形式化迈出了重要一步。本书所追求的结构方法则迈出自然的第二步：把因果过程本身形式化。

设 A 与 B 分别为治疗组与未治疗组，并设 P_{A1}(y) 与 P_{A0}(y) 分别为组 A 在两个假想条件（治疗与不治疗）下的响应分布。我们对响应分布的某参数 m 感兴趣，记 m_{A1} 与 m_{A0} 为在对应分布 P_{A1}(y) 与 P_{A0}(y) 中该参数的值，m_{B1} 与 m_{B0} 类似地对组 B 定义。实际中我们测量 (m_{A1}, m_{B0}) 这一对；假想交换之后我们将测量 (m_{B1}, m_{A0})。我们定义两组相对于参数 m 可交换，若两对不可区分，即 (m_{A1}, m_{B0}) = (m_{B1}, m_{A0})。特别地，若我们把因果效应定义为差 CE = m_{A1} − m_{A0}，则可交换性允许我们用 m_{B0} 替换 m_{A0}，从而得到 CE = m_{A1} − m_{B0}，这可测量，因为两个量都被观测到。Greenland 与 Robins 因此宣称因果效应 CE 在 m_{A0} = m_{B0} 时无混杂。若把这一定义与（6.10）P(y|do(x)) = P(y|x) 比较，我们发现若把后者重写为 m[P(y|do(x))] = m[P(y|x)]，其中 m 是响应分布中所感兴趣的参数，则两者重合。然而结构方法与 GR 方法之间的主要差别在于分析层面。结构建模在两个重要方向上扩展了混杂的形式化。第一，（6.10）不被提交给直接的人类判断，而是从更基础的、关于因果过程的判断中数学地导出。第二，结构模型所需的输入判断既为定性的又为稳定的。一个简单例子将说明这些特征带来的益处。考虑以下陈述（Greenland 1998）：(Q) "若效应测度是响应比例的差或比，则上述现象——无混杂的不可压缩性——不可能出现，混杂无不可压缩性也不可能出现。"（pp. 905–6）我们已在本章见到陈述 (Q) 应以几种方式加以限定，且一般而言不可压缩性与混杂是两个不同概念——彼此互不蕴涵，无论效应测度为何（6.5.1 节）。然而我们在此希望讨论的问题是方法论的：什么样的形式化将适于验证、反驳或限定此类陈述？显然，因为 (Q) 对所有实例作一般断言，一个反例就足以反驳其一般有效性。但我们如何构造这样的反例？更一般地，我们如何构造体现混杂、效应偏倚、因果效应、实验性与非实验性数据、反事实及其他基于因果性概念的属性的例子？在概率论中，若我们希望反驳一个关于参数及其关系的普适陈述，我们只需给出一个密度函数 f 使该关系在该函数上不成立。在命题逻辑中，为了证明一个句子为假，我们只需给出一个真值表 T 使其满足前提而违反结论。那么当我们希望反驳如陈述 (Q) 的因果主张时，应当用什么数学对象替代 f 或 T？在 Greenland 与 Robins 的可交换性框架中所用的相应对象是一个反事实列联表（见如 Greenland et al. 1999b, p. 905，或 1.4.4 节的图 1.7）。例如为说明混杂，我们需要两个这样的表：一个描述治疗组 A 对治疗与不治疗的假想响应，一个描述未治疗组 B 对治疗与不治疗的假想响应。若这些表显示从治疗组对不治疗的假想响应所计算的参数 m_{A0} 不同于从未治疗组的实际响应所计算的 m_{B0}，则我们手中便有混杂。这类表能为涉及一个治疗变量与一个响应变量的简单问题而构造，但当涉及若干协变量或当我们希望对这些协变量施加某些约束时它们便成为噩梦。例如我们可能希望纳入标准假设：协变量 Z 不位于治疗与响应之间的因果通路上，或 Z 对 Y 有因果影响，但这种假设不能在反事实列联表中方便地表达。因此，所反驳主张的作者总能争辩说反例中使用的表可能与已达成的假设不一致。这一困难不侵扰混杂的结构表征。在这种形式化中，用以举例或反驳因果陈述的适当对象是一个因果模型，如第 3 章所定义且本书通篇所用。在这一形式化中，假想响应（m_{A0} 与 m_{B0}）与列联表不是原始量，而是可从一组方程推导出的量；这些方程已包含我们希望尊重的假设。因果模型的每一种参数化（用（3.51）式或 do(·) 算符）蕴含一组特定的反事实列联表，它们满足输入假设并展现图中显示的统计性质。例如图 6.3 图的任何参数化都生成一组反事实列联表，该列联表已包含假设 Z 不位于 X 与 Y 之间的因果通路上、Z 对 Y 无因果影响，且几乎每一种这样的参数化都会生成对 (Q) 的反例。此外我们也可通过对图的直接检视反驳 (Q)，无需生成数值反例。例如图 6.3 鲜明地显示风险差 P(y|x1) − P(y|x2) 在 Z 上不可压缩、且同时 X 与 Y（稳定地）无混杂。当我们要确认而非反驳关于混杂的一般性主张时，两种形式化之间的差异更为显著。在此仅给出一张列联表还不够；我们必须证明该主张对所有在符合输入假设下能构造的表都成立。这一任务如读者想必已意识到，在列联表框架内是一项无望的演练；它要求一种形式化使假设能被简明陈述、且结论能通过数学推导演绎。结构语义提供了这样的形式化，如本书中证明的许多一般性主张（如定理 6.4.4 与推论 6.5.2）所示。尽管我对 Greenland 与 Robins 通过可交换性框架所引入的严谨怀有敬意，我完全相信反事实列联表的不透明性与不灵活性大体上应对 GR 框架在流行病学家中接受缓慢负责，且作为副产物，应对统计文献中围绕混杂的持续混乱负责。我同样相信以结构模型的语一言表述主张与假设将使因果性的数学分析能为普通研究者所接近、从而最终带来对混杂概念的自然去蔽。

6.6 结论（Conclusions）

过去的努力之所以未能成功建立统计关联（或可压缩性）与混杂之间的理论联系，原因有三。第一，缺少表达因果关系与效应偏倚主张的数学语言使评估效应无偏性要求（定义 6.2.1）与声称刻画无偏性的统计准则之间的差距变得困难。第二，需要从考虑中排除贫瘠代理（图 6.3）这一点不知为何逃过了研究者的注意。第三，稳定无偏性与偶发无偏性之间的区别未获得其应得的关注，正如我们在例 6.3.3 中所见，若不对稳定性作出承诺，则关联性准则（或可压缩性）与混杂之间不能建立任何联系。这一承诺关键性地依赖于"因果模型作为可彼此独立变化的自治机制的组合"这一观念（Aldrich 1989）。只有预期到这样的独立变化，我们才不会满足于偶发无偏性、而是去寻求稳定无偏性的条件。这一观念的形式化引出了相关概念：DAG-isomorph（Pearl 1988b, p. 128）、稳定性（Pearl and Verma 1991）、以及忠实性（Spirtes et al. 1993），这些概念有助于从稀疏的统计关联中阐明因果图（见第 2 章）。这一观念显然也曾为那些致力于把关联性准则与混杂联系起来的研究者所共享。结构模型分析的出现辅以图形方法，提供了一种数学框架，使混杂的考量得以被更有效地形式化与管理。使用这一框架，本章阐明稳定无偏性的准则，并显示该准则（i）已是流行病学与生物统计学中许多研究暗中追求的目标，且（ii）能被赋予类似可压缩性检验的可操作统计检验。我们进一步显示（6.5.3 节）结构框架克服了使混杂成为文献中最混乱主题之一的基本认知与方法论障碍。因此自然地可预期这一框架将成为混杂未来研究的主要数学基础。

本章个人批注

本章是 Pearl 关于"用统计语言去刻画因果概念"这一长期困惑的系统性总清算，读完之后我有几层反思。

第一，本章的核心论证结构可以概括为：把"因果"与"统计"两种混杂概念剥离开来，然后在二者之间构造一座桥——稳定性无偏性。这座桥的两端都重要：Pearl 一方面论证传统的"U1/U2 关联性准则"既不充分也不必要（6.3 节的所有四个失败案例分别处理边缘性、闭合世界假设、贫瘠代理、偶然抵消），另一方面又通过定理 6.4.4 证明同一关联性准则在 T 限于"可能影响 Y 且不受 X 影响"的变量时、且仅限于必要方向时仍能作为稳定无混杂的可操作检验。这一构造非常精巧——既不完全抛弃统计准则（这会冒犯流行病学家），也不过分拔高它们的地位（这会让因果分析被统计学吞并）。"几乎对"这一章标题里的措辞反映的就是这种微妙的中间位置。

第二，6.1.4 节的定理 6.1.1（sure-thing principle）给我留下深刻印象。这个定理从纯粹的概率演算（结合"药物不影响性别"这一结构性前提）证明了辛普森反转在 do(·) 算符下不可能成立。这一证明结构非常接近物理中"由不变性推出守恒律"的论证模式——do(·) 算符把"对总体的干预"翻译为"在每个子总体上做相同的干预并加权"，而权重（即子总体的相对大小）的不变性是被结构前提保证的。Pearl 在 5.3.3 节以及第 3、4 章中反复使用这一论证结构，本章把它应用到辛普森悖论上使其逻辑闭合。

第三，6.3.4 节的偶然抵消例子（例 6.3.3）极具教学价值。它精确地说明了一个朴素的统计学家与一个成熟的因果思考者之间的区别：朴素统计学家看到 r = β + r + αγ 中的 r 与 αγ 相消，便宣布"无需调整"；成熟思考者看到这一抵消依赖于特定的参数配置（且这种配置不会在参数微小变化下持续），便宣布"这不是稳定无偏性"。Pearl 在 6.4.1 节把这种区分形式化为稳定对偶发无偏性。这一区分在哲学上与因果性的"反事实依赖"概念密切相关——稳定无偏性本质上要求反事实依赖关系（即"若参数改变，效应估计是否改变"）的结构性分析，而非某一特定参数配置下的点估计。

第四，6.5 节关于混杂与可压缩性的区别让我重新审视了统计教科书中的"调整"讨论。Greenland（1998）的陈述 (Q*)——"效应测度为响应比例的差或比时混杂与不可压缩性代数等价"——是我在阅读中曾默认接受过的常识。Pearl 用图 6.3 给出反例：风险差在该图中对 Z 不可压缩（对几乎每种参数化）然而效应是无偏的（对每种参数化）。这一反例之所以能在 Pearl 的结构框架中被简洁地构造、却很难在 Greenland 的反事实列联表框架中被构造，正反映了两种形式化在"假设表达"与"结论推导"上的不对称性——结构形式化让因果假设编码在图拓扑中、并让结论通过 d-分离规则机械推出，反事实列联表则要求研究者手动列出满足假设的所有列联表，这在大规模问题中是不可行的。

第五，6.5.2 节对 Rothman–Greenland 条件的细致分析（"每一单独变量可以与 X、Y 都不关联，但仍可作为混杂因子的成员"）与图 6.5 的反例对应了我自己曾犯过的错误——把"必须与 X、Y 同时关联"误读为"对集合中的每一成员成立"。Pearl 通过这一区分告诉我们：传统的"识别混杂因子"清单方法在结构上是有缺陷的，正确的做法是识别满足后门准则或非平凡充分集的变量集，而非逐个变量做筛选。这一论断与第 3 章的后门准则直接对接。

第六，本章末尾（6.5.3 节）对结构框架与 GR 可交换性框架的对比很坦率。Pearl 承认 GR 的严谨，但指出反事实列联表的不透明性是大规模问题中的实质障碍。这一批评与本书第 1 章对 Holland 潜在结果模型（不带结构语义时）的批评同构：潜在结果作为基础概念没问题，但若没有结构性锚定，它就只能处理非常受限的问题。Pearl 在第 7 章将进一步用结构语义为反事实逻辑奠基，本章 6.5.3 节已为此埋下伏笔。

第七，我对"贫瘠代理"（barren proxy）这一概念特别感兴趣。它指的是这样一个变量：它对 X 与 Y 都无因果影响、但通过中介与两者关联。图 6.3 中的车型就是典型——它由教育与年龄共同决定，但既不影响暴露也不影响疾病；然而传统的关联性准则会把车型标为混杂因子并建议调整。Pearl 的修正准则（定义 6.3.2）以及 Stone–Robins 修正（U1/U2）都试图把贫瘠代理排除出检验集。这一概念在因果发现（第 2 章）与混杂控制（第 3 章）之间建立了关键桥梁——若不区分"经由中介的关联"与"直接的因果影响"，则任何相关性都会被错误地归因于因果。

最后，本章的结构与论证强度让我重新评价 Pearl 在第 5 章提到的"代际遗忘"现象——SEM 实践者遗忘了结构方程的因果解读、辛普森悖论的研究者遗忘了反转现象的因果根源——这两类遗忘其实是同一现象的不同表现：当一代研究者失去了表达因果性的数学工具时，他们就不得不退而求其次，把因果性翻译为统计性的替身，这些替身虽然表面严谨、实际上不能表达他们想表达的内容。Pearl 的 do(·) 算符、d-分离准则、后门准则等图形工具的引入，正是为这种遗忘提供"找回"的方法。

待补 / 待澄清：无。

与上下章的衔接（一段话）

本章在全书结构中处于"混杂问题的系统化清算"的关键位置。第 3 章奠定了非参数因果效应识别的图形基础（do-演算、后门准则、前门准则），第 4 章把 do-演算推广到条件行动、随机策略、规划与直接/间接效应分解，第 5 章把第 3、4 章的非参数结果改写为 SEM 与计量经济学所熟悉的参数形式并恢复结构方程的因果解读。本章面对的核心听众是流行病学家与生物统计学家——他们几十年来一直在用统计准则识别混杂，但因缺乏形式化的因果语言而长期陷入混乱。Pearl 的策略是先把因果定义（定义 6.2.1）与关联性定义（定义 6.2.2）对照、并通过 6.3 节的四个失败案例证明传统关联性准则既不充分也不必要；然后在 6.4 节引入稳定对偶发无偏性的区分，并通过定理 6.4.4 给出"几乎对的"关联性准则——它在必要方向上仍然有效；最后在 6.5 节澄清三组关键区分（可压缩性对无混杂、混杂因子对混杂、结构分析对可交换性分析）。本章向前为第 7 章（反事实逻辑的结构基础）作铺垫——6.5.3 节明确指出反事实列联表在大规模问题中的不透明性正是结构形式化的动机；也为第 8 章（不完美实验、效应界定与反事实）作铺垫——稳定无偏性的概念将在不完美实验的效应界定中继续发挥作用。本章在全书中的角色是把混杂这一历史上最混乱的话题用结构形式化重新整理，从而为后续章节的反事实分析、不完美实验、概率因果性等问题提供干净的概念基础。