第03章：Regression, Observations, and Interventions

作者

本章由 Aleksander Molak 撰写。技术审稿由 Nicole Königstein 完成。涉及的 Python 库以 statsmodels（线性回归/R-style 汇总）为主。统计控制（statistical control）部分的批判性讨论主要引自 Becker et al. (2016) Journal of Organizational Behavior 的 10 条建议；"好控制 / 坏控制"框架引自 Cinelli, Forney & Pearl (2022) Sociological Methods & Research。

内容概述

本章是 Ch 1–2 的"因果阶梯"框架到 Ch 4+ 图模型的桥梁。核心问题：给定一组观察数据，我们应该控制哪些协变量？作者用三组材料回答这个问题：（1）线性回归基础（单变量、多变量、标准化与 Pearson $r$ 的关系、反向回归的差异）；（2）统计控制的代价——通过一个四模型实验展示，控制 confounder 是必要的（$Y \sim X + A$），但控制 collider $B$（$Y \sim X + B$）反而引入 spurious 关联，与不控制的效果恰好对消；（3）线性回归与 SCM 的等价性——当真实系统线性 in parameters 时，回归系数 = 因果效应（Pearl 2013 称为"线性模型是有用的因果显微镜"）。本章不教读者做因果发现，但为 Ch 4 的图模型、Ch 5 的 collider 详细讨论做铺垫。

核心方程与概念

简单线性回归（单变量）： $$\hat{y}_i = \alpha + \beta x_i$$ 其中 $\hat{y}_i$ 是观测 $i$ 的预测值，$\alpha$ 是截距，$\beta$ 是斜率。在多变量情形下 $X \in \mathbb{R}^{N \times D}$，每个 $X_j$ 配系数 $\beta_j$，表示"在控制其他变量不变时，$X_j$ 变化 1 单位对 $\hat{Y}$ 的贡献"。
数据生成公式（本章用 toy example）： $$y_i = 1.12 + 0.93 x_i + 0.5 \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0,1), \quad x_i \sim \mathcal{N}(0,1)$$ 用 statsmodels.OLS 拟合后恢复 $\hat{\alpha} \approx 1.12, \hat{\beta} \approx 0.93$，$p < 0.001$。截距常数列必须显式加（sm.add_constant）—statsmodels 不像 scikit-learn 那样自动加。
p-值与统计显著性：原假设 $H_0: \beta_j = 0$ 或 $H_0: \text{model} = \text{null model}$。p-值是"在 $H_0$ 为真时观测到至少与现有数据一样极端的统计量的概率"。p-值被广泛滥用：见 Wasserstein & Lazar (2016) ASA 声明。本章正确指出"reject $H_0$" $\neq$ "prove alternative"。
相关与回归的不对称：
Pearson $r_{XY} = r_{YX}$（对称）。
标准化回归系数 $Y \sim X$ 等于 $r_{XY}$；但 $Y \sim X$ 与 $X \sim Y$ 的非标准化系数通常不同（截距方向也反转）。
关键推论：回归是 rung-1 工具，无方向性。当两个变量无因果关联时，回归仍能给出"关系"（如 Ch 1 的 ice cream ↔ drowning 例子）。
统计控制的双刃剑——四模型实验：

数据生成 SCM（图 3.5）：$A \sim \mathcal{N}(0,1)$，$X = 2A + 0.5\epsilon_X$，$Y = 2A + 0.5\epsilon_Y$，$B = 1.5X + 0.75Y$。真实结构：$A$ 是 $X, Y$ 的 confounder；$B$ 是 $X, Y$ 的 collider。

模型	$X$ 的 p-value	$X$ 的系数	$A$ 的系数	$B$ 的系数	结论
$Y \sim X$	< .001	0.947	—	—	错（$X,Y$ 因 $A$ 而关联）
$Y \sim X + A$	.6565	0.014	1.967	—	对（控制 confounder）
$Y \sim X + B$	< .001	−2.000	—	1.333	错（打开 collider）
$Y \sim X + A + B$	< .001	−2.000	0.000	1.333	错（同时控制互相抵消）

关键洞察： - 控制 confounder $A$ 去除 $X, Y$ 之间的虚假关联。 - 控制 collider $B$ 反而打开虚假关联（Ch 5 详述机制）。 - 不控制任何变量 与 同时控制 $A$ 和 $B$ 的 $p$-value 相同（结构性效应恰好抵消），但系数不同。 - 没有任何"控制所有可用协变量"的通用规则——Becker et al. (2016) 给出 10 条建议，其中核心是：(1) 不确定时不控制、(3) 用概念上有意义的控制变量、(7) 在自变量与控制变量之间做比较检验、(8) 同时报告有无控制的结果。

观测等价性（observational equivalence, Peters et al. 2017）：在没有干预的情况下，多个不同的因果图可以产生完全相同的联合分布 $P$。这就是为什么仅靠观察数据无法唯一确定因果结构（Ch 4 / Ch 13 因果发现的本质困难）。
线性回归作为因果显微镜（Pearl 2013）：当真实系统"参数线性"（linear in parameters, 即 $f$ 形如 $\beta_1 X_1 + \beta_2 X_2$）且因果图已知能确定正确控制集时，回归系数 = 因果效应。这一条件在生物力学与经济学的"线性近似"场景中广泛适用。
含非线性项的回归： $$Y = \beta_1 X_1 + \beta_2 X_1^2$$ 求导得 $\frac{dY}{dX_1} = \beta_1 + 2\beta_2 X_1$。注意：此时 $X_1$ 对 $Y$ 的影响大小依赖于 $X_1$ 的当前值——即异质效应（heterogeneous effect），Ch 9–11 的 CATE 元学习器正是为此而设。$X_1^2$ 又是 $X_1$ 与自身的交互项（interaction），$X_1 \cdot X_1$ 的特例。
回归假设（必须满足才能做因果解释）：
参数线性（linearity in parameters）
同方差性（homoscedasticity）
观测独立性（independence of observations）
固定 $X$ 时 $Y$ 的正态性（normality of $Y$）详见 Westfall & Arias (2022, pp. 17–19)。

关键结论

线性回归是无方向的 rung-1 工具；相同回归系数可以出自完全不同的因果图（观测等价性）。
统计控制没有"多多益善"——错误地控制 collider 反而引入虚假关联；不控制 confounder 则保留虚假关联。本章的四模型实验是 Ch 5 详述 d-separation 的最重要铺垫。
当（且仅当）因果图已知 + 真实系统参数线性时，回归系数 = 因果效应（Pearl 2013）。
在观察数据上跑回归并直接做因果解释，是真实数据分析中最常见的错误——隐藏 confounding 的概率高到无法安全地做。
非线性项让回归的解释从"单值因果效应"变成"依赖于变量当前值的异质效应"——这是 Part 2 Causal Inference 要解决的中心问题。
Cinelli, Forney & Pearl (2022) 的"好控制 / 坏控制"框架是对 Becker et al. (2016) 的因果升级：好控制 = 阻断 confounding 且不打开 collider；坏控制 = 打开了新的非因果路径。

挑战和开放性问题

控制变量选择的可计算化：在变量数 $\sim 100$ 的真实数据中，控制集有 $2^{100}$ 种选择，Becker 等人的启发式无法穷尽。需要 causal discovery (Ch 12–14) 或先验领域知识辅助。
参数线性假设的局限：当真实系统非参数线性时（如医学中的剂量响应曲线），回归系数不再等于因果效应；需要 double machine learning (DML) 或 causal forest（Ch 10）这样的非参数方法。
观测等价性的不可解性：仅靠观察数据无法在因果等价类（Markov equivalence class）内区分不同 DAG；必须引入干预或假设（如 faithfulness、causal sufficiency）。
p-值的滥用问题：Wasserstein & Lazar (2016) 的 ASA 声明已经 8 年，但实践中 p-值滥用依然普遍；置信区间的因果解读与频率派统计差异仍未被广泛理解。
多元共线性（multicollinearity）：当多个控制变量高度相关时，回归系数方差爆炸，符号可任意翻转——这一统计现象在因果图中对应"控制了一条不必要的边"。
异方差-因果性的耦合：Hoscedasticity 假设在因果推断中常被违反（处理效应异质 + 控制集选择偏差），需要 robust standard error 或 bootstrap。

个人反思与批判性分析

本章是连接 Ch 1–2 哲学与 Ch 4–11 工程化方法的关键过渡，也是最容易"用错"的一章：

四模型实验是教学上极精巧的设计：单一 $A$ 控制 vs $B$ 控制 vs 二者 vs 不控制四种情形，把 confounding / collider / 抵消三种机制在一个 5 变量 SCM 内展示。值得注意的是，作者先让读者写下假设再揭示答案——这是 Pearl 教学法的标志，但在工程实践里读者通常不会做这一步。生产代码里常直接 StandardScaler + OLS 跑全控制集，得出 $-2.000$ 这种"看起来对"的系数，但 $p < 0.001$ 的虚假显著。
Cinelli et al. (2022) "好控制/坏控制"是本章的隐藏金矿：作者只给了链接，未充分展开。实际上 Cinelli et al. 给出了封闭公式判断任意控制变量对 treatment effect 估计的偏差贡献（包含 collider / mediator / M-shape 等 12 种情况）。做医学或经济学数据分析的人应当把它打印在墙上。
Pearl (2013) "线性显微镜"立场的隐含危险：作者强调"当因果图已知 + 系统参数线性"时回归是显微镜。但真实生物系统几乎从不参数线性——SMC G&R 中管壁应力对应变率的幂律响应是 0.5–1 阶非线性；细胞骨架的 force-dipole 响应是非线性张量场。把非参数线性系统强行套用"回归 = 因果"会导致系数与真实因果量级差几个数量级。本章没强调这一点。
观测等价性的实践后果：在没有 RCT 的真实数据中，OLS 永远不能直接证明因果——只能在"已假设的因果图"上做一致性检验。这与"data-driven causal discovery"营销话术正相反；Ch 13 揭示的 NOTEARS 等算法仍然依赖 faithfulness 等难以验证的假设。
对个人研究的启发：我在做血管生物力学时，常被"哪些人口学/影像学变量该作为协变量"困扰。本章的教训是：先画因果图，再决定控制集。在 SMC G&R 框架下，年龄是动脉硬化的强 confounder（同时影响血压与管壁重塑），必须控制；性别则常是 effect modifier（女性 vs 男的硬化速率不同），而非 confounder——若强行以"加更多协变量"为目标控制性别，会引入新的 collider 路径。正确的做法：根据生物学因果图选择协变量，而非依据"能加就加"。
Becker 10 条建议 vs Pearl 因果图：Becker 的启发式本质上是 Pearl 框架的退化版（控制 confounder 不控制 collider）。当因果图已知时，因果图方法严格优于启发式；当因果图未知时，启发式是次优但稳定的退路。Cinelli et al. (2022) 是这两端的桥梁——基于观察数据 + 假设做偏差界估计。

重要参考文献

[X1] Becker, T. E., Atinc, G., Breaugh, J. A., Carlson, K. D., Edwards, J. R., & Spector, P. E. (2016). Statistical control in correlational studies: 10 essential recommendations for organizational researchers. Journal of Organizational Behavior, 37(2), 157–167 — 本章统计控制 10 条建议的来源。
[X2] Cinelli, C., Forney, A., & Pearl, J. (2022). A Crash Course in Good and Bad Controls. Sociological Methods & Research, 0(0), 1–34 — "好控制 / 坏控制"的因果图分类法；本章末附链接的"含金量最高"参考。
[X3] Pearl, J. (2013). Linear Models: A Useful "Microscope" for Causal Analysis. Journal of Causal Inference, 1(1), 155–170 — "线性模型 = 因果显微镜"立场的原始论述。
[X4] Pearl, J. (2012). The causal foundations of structural equation modeling. In Hoyle, R. H. (Ed.), Handbook of Structural Equation Modeling (pp. 68–91). Guilford Press — SEM 与因果关系的奠基性论述。
[X5] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — 观测等价性概念的来源；Ch 2 给出 SCM 形式化。
[X6] Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133 — 美国统计协会对 p-值滥用的官方声明；本章 p-值框注的来源。
[X7] Westfall, P. H., & Arias, A. L. (2022). Understanding Regression Analysis: A Conditional Distribution Approach. CRC Press — 线性回归四大假设（线性/同方差/独立/正态）的标准教材。
[X8] Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press — 互信息等基于熵的非线性关联度量，本章非线性框注的来源。
[X9] Bollen, K. A., & Noble, M. D. (2011). Structural equation models and the quantification of behavior. PNAS, 108(Suppl 3), 15639–15646 — SEM 作为多变量建模技术的综述，与 SCM 的术语差异说明。
[X10] Kline, R. B. (2015). Principles and Practice of Structural Equation Modeling (4th ed.). Guilford Press — SEM 的标准教材；本章 SEM 框注的参考。
[X11] Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley — 潜变量 SEM 的经典教材（隐式引用）。
[X12] Wooldridge, J. M. (2010). Econometric Analysis of Cross-Section and Panel Data (2nd ed.). MIT Press — 面板数据因果推断标准教材（隐式引用，Ch 8 也会用到）。

模型	\(X\) 的 p-value	\(X\) 的系数	\(A\) 的系数	\(B\) 的系数	结论
\(Y \sim X\)	< .001	0.947	—	—	错（\(X,Y\) 因 \(A\) 而关联）
\(Y \sim X + A\)	.6565	0.014	1.967	—	对（控制 confounder）
\(Y \sim X + B\)	< .001	−2.000	—	1.333	错（打开 collider）
\(Y \sim X + A + B\)	< .001	−2.000	0.000	1.333	错（同时控制互相抵消）