Pearl 2009 Causality: Chapter 1 读后笔记

Introduction to Probabilities, Graphs, and Causal Models

Section 1: 章节概述

本章是Pearl所著《Causality》第二版第一章，系统性地介绍了将因果推理建立在概率论与图论基础之上的基本理论框架。全章共分为四个主要部分，分别对应概率论基础、图与概率的结合、贝叶斯网络以及d-分离准则。

第一部分（1.1节）首先回答了一个根本性问题：为何因果关系的研究需要从概率论出发。Pearl指出了双重动机——表层动机在于日常因果陈述中普遍存在的不确定性，例如"鲁莽驾驶导致事故"这类表述并非确定性命题；深层动机则在于，即使是最坚定的因果表达在自然语言中也会隐含例外，若用确定性逻辑处理这些例外将产生悖论（如邻居屋顶与自家屋顶的淋湿问题）。概率论作为一种天然容纳例外的数学语言，为因果推理提供了更合适的语义基础。

第二部分（1.2节）引入了图模型的基本概念，包括有向图、无向图、双向边、有向无环图（DAG）等术语的定义。Pearl阐述了图在概率建模中的三重作用：表达实质性的领域假设、促成联合概率分布的经济化表示、以及支持高效的推断运算。

第三部分聚焦贝叶斯网络，Pearl详细定义了马尔可夫父母（Markovian Parents）概念，说明了如何通过条件独立性将大型联合分布分解为局部条件分布的乘积，并引入马尔可夫兼容性（Markov Compatibility）的定义。

第四部分引入了全书中极为核心的d-分离准则（d-separation criterion），建立了图结构与概率分布之间严格的对应关系。Pearl证明了两条关键定理：d-分离 ⇒ 条件独立性；条件独立性 ⇒ d-分离（逆命题几乎处处成立）。此外还讨论了观测等价性（Observational Equivalence）的概念。

本章的论述为后续各章奠定了数学基础，特别是在第二章处理因果推断的识别问题、第五章讨论因果机制与干预效果时，读者将频繁回溯本章引入的概念与定理。

Section 2: 关键问题与研究动机

2.1 概率论为何是因果推理的必要基础

Pearl在开篇即提出了一个根本性的哲学问题：因果关系意味着法则性的必然性，而概率论则与例外性、怀疑和缺乏规律性联系在一起——这两者看似矛盾，为何要将因果理论建立在概率论之上？

第一个（较为直接的）动机源于观察：几乎所有日常的因果陈述都是在充满不确定性的情境中做出的。"鲁莽驾驶导致事故"、"你因懒惰而会挂科"——说话者清楚地知道这些前因只是使后果更可能发生，而非绝对确定。任何旨在容纳此类陈述的因果理论，必须使用能够区分不同程度可能性的语言，即概率论的语言。

第二个（更为深刻的）动机涉及自然语言中因果表达的内在例外问题。Pearl举出了一个引人入胜的例子：

前提1：我邻居的屋顶每次淋湿时，我的屋顶也会淋湿。
前提2：如果我用水管冲屋顶，我的屋顶会湿。

按字面意思理解，这两个前提会得出一个荒谬的结论：每次我用水管冲屋顶时，邻居的屋顶就会湿。这个悖论源于前提1隐含的诸多例外（邻居屋顶覆盖了塑料布时等）。只有当我们明确阐述所有例外后，悖论才会消失。

概率论天然地容纳了这些未明确说明的例外，使我们得以专注于因果的核心问题，而无需处理此类悖论。

2.2 贝叶斯解释的认识论立场

Pearl明确采用贝叶斯学派对概率的解释：概率编码的是个体对世界中事件的信念程度，数据被用来增强、更新或削弱这些信念程度。在这一形式体系中，信念被分配给语言中的命题（取真值或假值的句子），并按照概率演算的规则进行组合和操作。这种主观主义解释使得概率论不仅能处理随机性，还能处理认知不确定性——这对于因果推理中的知识表示至关重要。

2.3 从联合分布到局部条件分布的分解动机

在实际的因果建模中，变量数目可能非常庞大。如果要求显式指定完整的联合分布 $P(x_1, x_2, \ldots, x_n)$，对于 $n$个二值变量就需要存储 $2^n$ 个数值，这在大规模系统中是不可行的。

Pearl的核心洞察是：如果每个变量 $X_j$ 仅依赖于其前驱的一个小子集（即其"马尔可夫父母"），则联合分布可以分解为局部条件分布的乘积。这一分解不仅大幅减少了表示所需的信息量，而且与人类对因果机制的直觉理解高度吻合——我们通常将因果关系理解为局部性的（一个事件由其直接前因决定，而非整个历史）。

2.4 从概率独立到图结构的映射动机

概率论中的条件独立关系是抽象的数学对象，而图论中的路径阻塞概念是直观的结构性描述。Pearl为什么要建立这两者之间的对应关系？

其动机在于：图结构提供了一种直观且可操作的表示方法，使得我们可以"读出"变量之间的条件独立关系，而无需计算具体的概率数值。反过来，定理d-分离 ⇔ 条件独立性则保证，这种图上的操作在概率层面是有意义的。这一对应构成了整个因果推断理论的核心支柱。

Section 3: 主要公式与推导

3.1 概率论基础公理

Pearl采用贝叶斯解释下的三条基本公理：

公理1（非负性）： $$0 \leq P(A) \leq 1$$

公理2（确定性）： $$P(\text{必然命题}) = 1$$

公理3（可加性）：若 $A$ 和 $B$ 互斥，则 $P(A \cup B) = P(A) + P(B)$。

3.2 条件概率与乘积规则

由公理推导出的基本关系。任意事件 $A$ 可分解为： $$P(A) = P(A \cap B) + P(A \cap \neg B) \qquad(1.4)$$

乘积规则（由条件概率定义直接推出）： $$P(A, B) = P(A \mid B) P(B) \qquad(1.9)$$

3.3 全概率法则

设 $\{B_i\}$ 为一组穷竭且互斥的命题（划分），则： $$P(A) = \sum_i P(A \mid B_i) P(B_i) \qquad(1.10)$$

在背景知识 $K$ 下： $$P(A \mid K) = \sum_i P(A \mid B_i, K) P(B_i \mid K) \qquad(1.11)$$

3.4 链式法则

对于 $n$ 个事件 $E_1, E_2, \ldots, E_n$： $$P(E_1, E_2, \ldots, E_n) = P(E_n \mid E_{n-1}, \ldots, E_1) \cdots P(E_2 \mid E_1) P(E_1) \qquad(1.12)$$

3.5 贝叶斯公式（核心公式）

贝叶斯倒置公式： $$P(H \mid e) = \frac{P(e \mid H) P(H)}{P(e)} \qquad(1.13)$$

其中：$P(H)$ 为先验概率（prior），$P(H \mid e)$ 为后验概率（posterior），$P(e \mid H)$ 为似然（likelihood）。

3.6 胜率与似然比形式

定义先验胜率： $$O(H) = \frac{P(H)}{P(\neg H)} = \frac{P(H)}{1 - P(H)} \qquad(1.16)$$

定义似然比： $$L(e \mid H) = \frac{P(e \mid H)}{P(e \mid \neg H)} \qquad(1.17)$$

后验胜率： $$O(H \mid e) = L(e \mid H) \cdot O(H) \qquad(1.19)$$

这一公式的直觉含义是：后验信念 = 先验信念 × 证据的诊断支持度。

3.7 随机变量的期望

设 $X$ 为离散随机变量，取值于 $D_X$：

均值（期望）： $$E(X) = \sum_x x \cdot P(x) \qquad(1.21)$$

条件均值： $$E(X \mid Y = y) = \sum_x x \cdot P(x \mid y) \qquad(1.22)$$

方差： $$\sigma_X^2 = E[(X - E(X))^2] \qquad(1.21')$$

协方差： $$\sigma_{XY} = E[(X - E(X))(Y - E(Y))]$$

相关系数： $$\rho_{XY} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y} \qquad(1.24')$$

条件相关系数（给定 $Z = z$）： $$\rho_{XY \mid z} = \frac{\sigma_{XY \mid z}}{\sigma_{X \mid z} \sigma_{Y \mid z}} \qquad(1.24)$$

3.8 条件独立性定义

设 $X, Y, Z$ 为变量集 $V$ 的三个子集，$Z$ 为条件集： $$P(x \mid y, z) = P(x \mid z), \quad \text{当 } P(y, z) > 0 \text{ 时} \qquad(1.26)$$

Dawid记号：$(X \perp\!\!\!\perp Y \mid Z)_P$ 或 $(X \perp\!\!\!\perp Y \mid Z)$ 表示条件独立。

边缘（无条件）独立： $$(X \perp\!\!\!\perp Y \mid \emptyset)_P \iff P(x \mid y) = P(x) \qquad(1.29)$$

3.9 贝叶斯网络的因子分解

设变量顺序为 $X_1, X_2, \ldots, X_n$，则链式法则给出： $$P(x_1, \ldots, x_n) = \prod_{j=1}^n P(x_j \mid x_1, \ldots, x_{j-1}) \qquad(1.30)$$

若 $X_j$ 的马尔可夫父母为 $PA_j$，则： $$P(x_j \mid x_1, \ldots, x_{j-1}) = P(x_j \mid pa_j) \qquad(1.31)$$

从而联合分布可因子分解为： $$P(x_1, \ldots, x_n) = \prod_{i=1}^n P(x_i \mid pa_i) \qquad(1.33)$$

以图1.2中的例子（季节→洒水器、季节→下雨、下雨∧洒水器→湿地、湿→滑）为例： $$P(x_1, x_2, x_3, x_4, x_5) = P(x_1) P(x_2 \mid x_1) P(x_3 \mid x_1) P(x_4 \mid x_2, x_3) P(x_5 \mid x_4) \qquad(1.34)$$

3.10 d-分离准则

一条路径 $p$ 被节点集 $Z$ 所d-分离（阻塞），当且仅当满足以下任一条件：

链式或分叉：$i \rightarrow m \rightarrow j$ 或 $i \leftarrow m \rightarrow j$，且中间节点 $m \in Z$；或
对撞结构（反置分叉）：$i \rightarrow m \leftarrow j$（对撞点），且中间节点 $m \notin Z$ 且 $m$ 的任何后代节点也不在 $Z$ 中。

若 $Z$ 阻断了从 $X$ 中任意节点到 $Y$ 中任意节点的所有路径，则 $Z$ d-分离 $X$ 和 $Y$。

3.11 公式汇总表

编号	公式名称	公式表达式	备注
(1.1)	非负性	$0 \leq P(A) \leq 1$	概率公理
(1.4)	分解规则	$P(A) = P(A,B) + P(A,\neg B)$	由可加性推导
(1.9)	乘积规则	$P(A,B) = P(A\mid B)P(B)$	条件概率定义
(1.10)	全概率法则	$P(A) = \sum_i P(A\mid B_i)P(B_i)$	划分求和
(1.12)	链式法则	$P(E_1,\ldots,E_n) = \prod_{j=1}^n P(E_j\mid E_{j-1},\ldots,E_1)$	迭代乘积
(1.13)	贝叶斯公式	$P(H\mid e) = \dfrac{P(e\mid H)P(H)}{P(e)}$	信念更新核心
(1.16)	先验胜率	$O(H) = \dfrac{P(H)}{P(\neg H)}$	信念度量
(1.17)	似然比	$L(e\mid H) = \dfrac{P(e\mid H)}{P(e\mid \neg H)}$	诊断强度
(1.19)	胜率更新	$O(H\mid e) = L(e\mid H) \cdot O(H)$	贝叶斯定理的胜率形式
(1.21)	数学期望	$E(X) = \sum_x xP(x)$	均值定义
(1.24)	条件相关系数	$\rho_{XY\mid z} = \dfrac{\sigma_{XY\mid z}}{\sigma_{X\mid z}\sigma_{Y\mid z}}$	条件相关
(1.26)	条件独立	$P(x\mid y,z) = P(x\mid z)$	定义形式
(1.28)	条件独立Dawid记号	$(X \perp\!\!\!\perp Y \mid Z)_P$	条件独立符号
(1.29)	边缘独立	$(X \perp\!\!\!\perp Y \mid \emptyset)_P$	无条件独立
(1.33)	贝叶斯网络因子分解	$P(x_1,\ldots,x_n) = \prod_{i=1}^n P(x_i\mid pa_i)$	DAG分解
(1.34)	具体DAG分解示例	$P(x_1,x_2,x_3,x_4,x_5) = P(x_1)P(x_2\mid x_1)P(x_3\mid x_1)P(x_4\mid x_2,x_3)P(x_5\mid x_4)$	图1.2实例

Section 4: 关键算法与建模方法

4.1 贝叶斯网络的构建算法

Pearl描述了一种递归式的贝叶斯网络构建方法，其核心步骤如下：

算法：贝叶斯网络递归构建

输入：变量集合 $V = \{X_1, X_2, \ldots, X_n\}$（已排序）及联合分布 $P$ 输出：有向无环图 $G$（贝叶斯网络）

从变量对 $(X_1, X_2)$ 开始：若两变量相关，则绘制 $X_1 \rightarrow X_2$；否则不连边。
处理 $X_3$：检查 $X_3$ 与 $\{X_1, X_2\}$ 的关系：
若 $X_3$ 与两者均独立，绘制孤立节点（无父母）。
若相关：检验 $X_2$ 是否"屏蔽" $X_3$ 与 $X_1$ 之间的独立（条件独立性检验）。若是，绘制 $X_2 \rightarrow X_3$；若 $X_1$ 屏蔽 $X_3$ 与 $X_2$ 则绘制 $X_1 \rightarrow X_3$；若均不屏蔽，则从两者各画一条箭头指向 $X_3$。
对第 $j$ 个变量 $X_j$：选择其前驱的一个极小子集 $PA_j$ 使得 $X_j$ 与其他前驱条件独立（满足公式1.32），令 $PA_j$ 为马尔可夫父母，从 $PA_j$ 中每个节点画一条有向边指向 $X_j$。
继续处理直至所有变量。

这一算法体现了"最小父母原则"——每个变量只与其直接因果父母相连，避免了冗余边的引入。在严格正的分布下（无确定性约束），该算法产生的图是唯一的（给定变量排序）。

4.2 d-分离判定算法

给定DAG $G$和三个互不相交的节点集 $(X, Y, Z)$，判定 $X$ 与 $Y$ 是否被 $Z$ d-分离的算法步骤如下：

算法：d-分离判定

识别所有从 $X$ 中节点到 $Y$ 中节点的路径。
对每条路径的每个中间节点按以下规则判断阻塞/非阻塞：
若路径为链式结构 $i \rightarrow m \rightarrow j$ 或分叉结构 $i \leftarrow m \rightarrow j$，且 $m \in Z$，则该路径被阻塞；
若路径为对撞结构 $i \rightarrow m \leftarrow j$（反置分叉），且 $m \notin Z$ 且 $m$ 的所有后代节点也不在 $Z$ 中，则该路径被阻塞。
若所有路径均被阻塞，则 $Z$ d-分离 $X$ 和 $Y$；否则，$X$ 与 $Y$ 为d-连通（d-connected）。

对撞结构的处理是算法中最反直觉但最关键的部分——在反置分叉中，$m$ 不在 $Z$ 中时路径反而被阻塞；而一旦 $m$ 或其任何后代被观测，该路径立即被解阻塞。这种"解阻塞"效应精确地捕捉了"选择偏差"（Berkson悖论）和"解释效应"（explaining away）的本质。

4.3 马尔可夫兼容性的判定方法

判定概率分布 $P$ 与DAG $G$ 是否兼容的方法：

方法一（因子分解验证）：直接验证 $P$ 是否可分解为公式（1.33）所示的局部条件分布乘积。

方法二（条件独立验证）：对DAG中的每个节点 $X_i$，验证在给定其父母 $PA_i$ 的条件下，$X_i$ 与所有非后代节点是否条件独立。这一方法对应于定理1.2.7（ parental Markov condition）。

方法三（d-分离验证）：对所有三元组 $(X, Y, Z)$，验证 d-分离关系是否与 $P$ 中的条件独立关系一致（对应定理1.2.4的逆否命题）。

4.4 观测等价类判定

判定两个DAG是否观测等价的算法（定理1.2.8）：

提取两个DAG的骨架（skeleton）：忽略所有箭头方向，仅保留边的连接关系。
识别两个DAG中各自所有的v-结构（v-structure）：即两个指向同一节点的箭头，但这两个箭头的尾节点之间没有直接边相连。
若两个DAG的骨架相同且v-结构集合相同，则它们观测等价；否则不等价。

这一判定在因果发现（causal discovery）中有重要意义——它告诉我们，仅凭观测数据无法区分同一等价类中的不同DAG结构，因此无法唯一地确定因果方向。

4.5 连续变量的处理原则

Pearl指出，本书主要关注有限离散变量系统，但连续变量的处理遵循对偶原则：求和对应积分，概率质量函数对应概率密度函数。期望、方差、协方差等概念均有连续对应物（见公式1.25的翻译规则）。密度函数 $f(x)$ 满足 $P(a \leq X \leq b) = \int_a^b f(x)dx$，数学期望为 $E(X) = \int_{-\infty}^{+\infty} x f(x) dx$。

Section 5: 主要结论

5.1 概率论是因果表示的必要语言

Pearl的核心论点是：不确定性在日常因果推理中无处不在，因此因果理论必须建立在概率论之上才能处理真实世界的复杂性和噪声。概率论不仅提供了量化因果强度的工具，还通过其公理体系自然地容纳了因果陈述中的隐含例外，避免了确定性逻辑处理例外时的悖论。

5.2 贝叶斯网络的因子分解原理

贝叶斯网络的核心发现是：联合概率分布 $P(x_1, \ldots, x_n)$ 可以因子分解为局部条件分布的乘积 $\prod_i P(x_i \mid pa_i)$，其中每个变量仅依赖于其马尔可夫父母。这一分解实现了从指数级参数复杂度到线性参数复杂度的跨越——若每个变量最多有 $k$ 个父母，则参数数量从 $O(2^n)$ 降至 $O(n \cdot 2^k)$。

因子分解的经济性不仅具有计算意义，更反映了因果关系的局部性本质：在真实世界中，每个结果通常由少数直接原因决定，而非由所有先前事件共同决定。

5.3 d-分离建立了图与概率的桥梁

d-分离准则（或d-连通性）是本书最重要的技术贡献之一。Pearl证明的核心定理（定理1.2.4/1.2.5）表明：

正向：在DAG $G$ 下，若 $X$ 与 $Y$ 被 $Z$ d-分离，则在任何与 $G$ 兼容的分布 $P$ 中，$X$ 与 $Y$ 条件独立。
反向：若 $X$ 与 $Y$ 在所有与 $G$ 兼容的分布中条件独立，则 $X$ 与 $Y$ 必被 $Z$ d-分离。

换言之，图结构是概率条件独立结构的精确图示。这一结论使得我们可以在图上直观地"读出"变量间的独立关系，而无需计算具体概率值。这对于因果推断的图模型方法具有决定性的意义。

5.4 观测等价性对因果推断的根本限制

定理1.2.8揭示了一个深刻的不确定性：仅从观测数据无法唯一确定因果图的方向。具有相同骨架和相同v-结构集合的多个DAG在观测上无法区分。这意味着从观测数据到因果结构的映射是一对多的——存在一个由多个观测等价DAG组成的等价类。

这一结论是第二章和后续章节讨论因果识别问题的起点：我们必须接受某些因果关系在纯观测意义下是不可区分的，从而将因果推断问题重新定义为"在等价类中确定最细粒度的因果结构"。

5.5 条件独立性的graphoid公理体系

Pearl总结了条件独立关系的七条公理（对称、分解、弱并、收缩、交集），这些公理在任何满足基本概率公理的系统中都成立。特别有趣的是交集公理要求分布严格正——在存在确定性关系的系统中，交集公理可能失效。这为后续讨论因果机制中的确定性关系埋下了伏笔。

Section 6: 挑战与开放问题

6.1 连续变量与混合变量的处理

本章几乎完全专注于有限离散变量系统。现实世界中的因果关系往往涉及连续变量（如温度、浓度、时间）以及离散与连续变量的混合。Pearl指出连续变量的推广遵循对偶原则（求和→积分），但在实际操作中，连续变量的条件独立性检验、密度估计、以及非高斯分布的处理都远比离散情况复杂。如何在连续和混合系统中高效地实现d-分离判定和贝叶斯网络推断，是一个尚未完全解决的问题。

6.2 时间序列与动态因果模型

DAG天然地表示了变量间的条件独立关系，但无法直接表示时间演化过程。本章中的图是静态的——没有内置机制来表示同一变量在不同时刻的值之间的反馈环路（有向循环）。Pearl提到了双向边用于表示未观测的共同原因，也提到可以用有向循环图表示反馈过程，但并未展开。

在流行病学、经济学和神经科学中，动态因果关系的建模是一个核心挑战。动态贝叶斯网络（Dynamic Bayesian Networks）和向量自回归（VAR）模型是处理时间序列因果关系的常见方法，但如何将这些方法与本书的因果语义框架有机结合，仍有待深入研究。

6.3 隐变量与混淆问题

虽然Pearl提到了双向边表示"未观测的共同原因"（confounder），但本章并未深入处理隐变量对因果推断的影响。在真实系统中，我们通常无法观测到所有相关变量。隐变量的存在可能导致虚假的条件独立性（激发本不存在的d-分离路径），从而误导因果发现过程。

第二章将处理因果识别的正式框架，但本章引入的概念尚无法应对隐变量情形下因果关系的复杂挑战。扩展d-分离准则以处理隐变量需要引入"条件d-分离"等更复杂的概念，以及使用极大极小熵等替代方法。

6.4 观测等价类中的因果方向确定

观测等价性（定理1.2.8）告诉我们，仅凭观测分布无法区分某些具有不同箭头方向的DAG。如何在这一等价类中确定因果方向，是后续章节需要回答的问题。Pearl在第1.2.3节末尾暗示了某些概率分布可以约束箭头方向，但并未给出具体判据。

解决这一问题的途径包括：利用干预实验（intervention）打破观测等价性；利用时间先后顺序的先验知识；利用似然比检验或结构方程模型（SEM）的拟合优度比较；以及利用非高斯性假设（如独立成分分析在非线性因素分析中的应用）。

6.5 条件独立性的统计检验

本章以概率论为框架讨论条件独立性 $(X \perp\!\!\!\perp Y \mid Z)_P$，但在实际应用中，我们拥有的只是有限样本而非真实分布 $P$。如何在有限样本条件下可靠地检验条件独立性，是一个具有根本性重要意义的统计学问题。

在离散变量情形，可以使用似然比检验或G检验；在高斯连续变量情形，可以检验偏相关系数是否为零；在更一般的非参数情形，需要使用基于核方法、条件互信息估计、或因果推断的回归方法。统计检验中的虚假发现率控制、有限样本校正、以及多重检验校正，都是尚未完全解决的问题。

Section 7: 个人反思与批判性分析

7.1 概率论作为因果基础的本体论承诺

Pearl选择以概率论作为因果推理的出发点，这一选择在认识论上具有重要意义，但也带来了一些需要反思的问题。

概率论提供的是一种关联主义（associationist）的语义框架——它描述的是变量之间的统计关联，而非因果机制本身。Pearl在后续章节引入了do算子和干预的概念，以区分"看到"（seeing）与"做"（doing），从而在概率语义之上叠加了一层因果语义。但在第一章中，这一区分尚未明确建立之前，读者可能会产生一种印象：因果关系最终可以被还原为概率关系。

笔者认为，更准确的解读应当是：Pearl并非在将因果还原为概率，而是选择了概率作为表示不确定性的语言，同时将因果结构编码在图的拓扑之中。概率分布描述的是"是什么"（what is），而图结构描述的是"为什么"（why）以及"如果做X会怎样"（what if）的干预语义。两者共同构成完整的因果表示。

7.2 贝叶斯主观主义的哲学张力

Pearl明确采用贝叶斯主观主义解释——概率编码的是个体信念程度。这一选择在技术层面具有便利性（它允许对任何命题分配概率，而无需区分"随机性"与"认知不确定性"），但也引发了哲学层面的张力。

在因果推断的语境下，主观主义解释意味着：不同个体基于不同背景知识可以对同一因果关系赋予不同的先验概率。这在某种程度上削弱了因果推断的客观性——因果关系似乎变成了"因人而异"的主观判断。

然而，Pearl在后续章节（特别是关于因果发现的讨论）中似乎又暗含了某种客观主义的倾向：因果结构本身是客观存在的，不同的观测分布对应不同的因果结构（即使我们无法唯一地恢复因果结构）。这一张力在第一章的框架内尚未显现，但值得读者在后续阅读中持续关注。

7.3 d-分离的反直觉性与其认知价值

对撞结构的d-分离处理（反置分叉在被观测时解阻塞）可能是本章最具认知挑战性的部分。直觉上，人们倾向于认为"知道原因就能知道结果"，但对撞结构揭示了一个反直觉的模式：当我们观察到两个独立原因共同导致的结果时，这两个原因会变得相关——因为观察结果提供了关于各原因的信息，且这些信息是相互抵消的。

Pearl给出的"解释效应"（explaining away）例子极具启发性：在入学选拔中，高分数与特殊音乐天赋两个条件独立（边缘无关）的属性，在录取学生群体中会呈现负相关——这是因为知道学生被录取了，就意味着他至少满足其中一个条件，从而降低了对另一个条件的推断概率。

笔者认为，这种反直觉性恰恰证明了d-分离准则的必要性：人类的直觉推理在因果概率情境下极易出错，而形式化的图模型提供了纠正直觉偏差的框架。

7.4 条件独立性的实践测量问题

第一章完全在数学层面讨论条件独立性——定义、定理、推导。但在实践层面，条件独立性的判定需要从有限数据中统计地估计。这引出了一个贯穿全书但第一章尚未触及的问题：统计推断的有限样本不稳定性。

在实际研究中，我们通常只有有限样本，条件独立性检验的统计功效有限，而且随着条件集Z的维度增加，检验所需样本量呈指数增长。这给高维因果发现带来了根本性的计算和统计挑战。第一章在理论层面建立了完美的对应关系，但这一完美性在有限样本条件下会被打破。

7.5 从本章看整书的理论路线图

阅读第一章后，我们可以隐约辨识出Pearl整本书的理论路线图：

第一章建立了表示工具：概率论（不确定性语言）+ 图论（结构表示）→ 贝叶斯网络 + d-分离
第二章将处理因果推断的核心问题：给定观测数据，如何识别因果效应——即从 $P(x_1, \ldots, x_n)$ 中能否唯一地确定 $P(y \mid do(x))$？
后续章节将依次引入干预（do calculus）、反事实（counterfactuals）、因果发现的算法、以及因果解释等主题。

第一章像是建筑的地基：它看起来只是"背景知识"，但实际上所有后续章节都将反复回溯本章的d-分离准则和因子分解原理。

7.6 对初学者的建议

对于首次接触因果推理的读者，本章可能具有一定的挑战——特别是d-分离准则和条件独立性公理体系的部分。笔者的建议是：

牢牢掌握贝叶斯公式：这是整个贝叶斯因果框架的核心操作工具。
亲手绘制几个贝叶斯网络并验证因子分解：用具体例子（如洒水器-下雨-湿地-滑的因果链）走一遍分解过程，建立直觉。
重点理解对撞结构的解阻塞行为：这是理解选择偏差和解释效应的关键，也是d-分离准则中最反直觉的部分。
接受观测等价性的限制：不必急于追求"唯一正确的因果图"，而应理解等价类概念对因果推断的根本约束。

第一章的阅读质量将直接影响后续章节的理解深度。建议读者在完成本章后，能够不参考原文独立推导d-分离的三种结构（链式、分叉、对撞），并能用具体概率数值验证条件独立性的graphoid公理。

编号	公式名称	公式表达式	备注
(1.1)	非负性	\(0 \leq P(A) \leq 1\)	概率公理
(1.4)	分解规则	\(P(A) = P(A,B) + P(A,\neg B)\)	由可加性推导
(1.9)	乘积规则	\(P(A,B) = P(A\mid B)P(B)\)	条件概率定义
(1.10)	全概率法则	\(P(A) = \sum_i P(A\mid B_i)P(B_i)\)	划分求和
(1.12)	链式法则	\(P(E_1,\ldots,E_n) = \prod_{j=1}^n P(E_j\mid E_{j-1},\ldots,E_1)\)	迭代乘积
(1.13)	贝叶斯公式	\(P(H\mid e) = \dfrac{P(e\mid H)P(H)}{P(e)}\)	信念更新核心
(1.16)	先验胜率	\(O(H) = \dfrac{P(H)}{P(\neg H)}\)	信念度量
(1.17)	似然比	\(L(e\mid H) = \dfrac{P(e\mid H)}{P(e\mid \neg H)}\)	诊断强度
(1.19)	胜率更新	\(O(H\mid e) = L(e\mid H) \cdot O(H)\)	贝叶斯定理的胜率形式
(1.21)	数学期望	\(E(X) = \sum_x xP(x)\)	均值定义
(1.24)	条件相关系数	\(\rho_{XY\mid z} = \dfrac{\sigma_{XY\mid z}}{\sigma_{X\mid z}\sigma_{Y\mid z}}\)	条件相关
(1.26)	条件独立	\(P(x\mid y,z) = P(x\mid z)\)	定义形式
(1.28)	条件独立Dawid记号	\((X \perp\!\!\!\perp Y \mid Z)_P\)	条件独立符号
(1.29)	边缘独立	\((X \perp\!\!\!\perp Y \mid \emptyset)_P\)	无条件独立
(1.33)	贝叶斯网络因子分解	\(P(x_1,\ldots,x_n) = \prod_{i=1}^n P(x_i\mid pa_i)\)	DAG分解
(1.34)	具体DAG分解示例	\(P(x_1,x_2,x_3,x_4,x_5) = P(x_1)P(x_2\mid x_1)P(x_3\mid x_1)P(x_4\mid x_2,x_3)P(x_5\mid x_4)\)	图1.2实例