跳转至

第03章:Regression, Observations, and Interventions

作者

本章由 Aleksander Molak 撰写。技术审稿由 Nicole Königstein 完成。涉及的 Python 库以 statsmodels(线性回归/R-style 汇总)为主。统计控制(statistical control)部分的批判性讨论主要引自 Becker et al. (2016) Journal of Organizational Behavior 的 10 条建议;"好控制 / 坏控制"框架引自 Cinelli, Forney & Pearl (2022) Sociological Methods & Research

内容概述

本章是 Ch 1–2 的"因果阶梯"框架到 Ch 4+ 图模型的桥梁。核心问题:给定一组观察数据,我们应该控制哪些协变量?作者用三组材料回答这个问题:(1)线性回归基础(单变量、多变量、标准化与 Pearson \(r\) 的关系、反向回归的差异);(2)统计控制的代价——通过一个四模型实验展示,控制 confounder 是必要的(\(Y \sim X + A\)),但控制 collider \(B\)\(Y \sim X + B\))反而引入 spurious 关联,与不控制的效果恰好对消;(3)线性回归与 SCM 的等价性——当真实系统线性 in parameters 时,回归系数 = 因果效应(Pearl 2013 称为"线性模型是有用的因果显微镜")。本章不教读者做因果发现,但为 Ch 4 的图模型、Ch 5 的 collider 详细讨论做铺垫。

核心方程与概念

  • 简单线性回归(单变量): $\(\hat{y}_i = \alpha + \beta x_i\)$ 其中 \(\hat{y}_i\) 是观测 \(i\) 的预测值,\(\alpha\) 是截距,\(\beta\) 是斜率。在多变量情形下 \(X \in \mathbb{R}^{N \times D}\),每个 \(X_j\) 配系数 \(\beta_j\),表示"在控制其他变量不变时,\(X_j\) 变化 1 单位对 \(\hat{Y}\) 的贡献"。

  • 数据生成公式(本章用 toy example): $\(y_i = 1.12 + 0.93 x_i + 0.5 \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0,1), \quad x_i \sim \mathcal{N}(0,1)\)$ 用 statsmodels.OLS 拟合后恢复 \(\hat{\alpha} \approx 1.12, \hat{\beta} \approx 0.93\)\(p < 0.001\)截距常数列必须显式加sm.add_constant)—statsmodels 不像 scikit-learn 那样自动加。

  • p-值与统计显著性:原假设 \(H_0: \beta_j = 0\)\(H_0: \text{model} = \text{null model}\)。p-值是"在 \(H_0\) 为真时观测到至少与现有数据一样极端的统计量的概率"。p-值被广泛滥用:见 Wasserstein & Lazar (2016) ASA 声明。本章正确指出"reject \(H_0\)" \(\neq\) "prove alternative"。

  • 相关与回归的不对称

  • Pearson \(r_{XY} = r_{YX}\)(对称)。
  • 标准化回归系数 \(Y \sim X\) 等于 \(r_{XY}\);但 \(Y \sim X\)\(X \sim Y\)非标准化系数通常不同(截距方向也反转)。
  • 关键推论:回归是 rung-1 工具,无方向性。当两个变量无因果关联时,回归仍能给出"关系"(如 Ch 1 的 ice cream ↔ drowning 例子)。

  • 统计控制的双刃剑——四模型实验:

数据生成 SCM(图 3.5):\(A \sim \mathcal{N}(0,1)\)\(X = 2A + 0.5\epsilon_X\)\(Y = 2A + 0.5\epsilon_Y\)\(B = 1.5X + 0.75Y\)。 真实结构:\(A\)\(X, Y\) 的 confounder;\(B\)\(X, Y\) 的 collider。

模型 \(X\) 的 p-value \(X\) 的系数 \(A\) 的系数 \(B\) 的系数 结论
\(Y \sim X\) < .001 0.947 \(X,Y\)\(A\) 而关联)
\(Y \sim X + A\) .6565 0.014 1.967 (控制 confounder)
\(Y \sim X + B\) < .001 −2.000 1.333 (打开 collider)
\(Y \sim X + A + B\) < .001 −2.000 0.000 1.333 (同时控制互相抵消)

关键洞察: - 控制 confounder \(A\) 去除 \(X, Y\) 之间的虚假关联。 - 控制 collider \(B\) 反而打开虚假关联(Ch 5 详述机制)。 - 不控制任何变量同时控制 \(A\)\(B\)\(p\)-value 相同(结构性效应恰好抵消),但系数不同。 - 没有任何"控制所有可用协变量"的通用规则——Becker et al. (2016) 给出 10 条建议,其中核心是:(1) 不确定时不控制、(3) 用概念上有意义的控制变量、(7) 在自变量与控制变量之间做比较检验、(8) 同时报告有无控制的结果。

  • 观测等价性(observational equivalence, Peters et al. 2017):在没有干预的情况下,多个不同的因果图可以产生完全相同的联合分布 \(P\)。这就是为什么仅靠观察数据无法唯一确定因果结构(Ch 4 / Ch 13 因果发现的本质困难)。

  • 线性回归作为因果显微镜(Pearl 2013):当真实系统"参数线性"(linear in parameters, 即 \(f\) 形如 \(\beta_1 X_1 + \beta_2 X_2\))且因果图已知能确定正确控制集时,回归系数 = 因果效应。这一条件在生物力学与经济学的"线性近似"场景中广泛适用。

  • 含非线性项的回归: $\(Y = \beta_1 X_1 + \beta_2 X_1^2\)$ 求导得 \(\frac{dY}{dX_1} = \beta_1 + 2\beta_2 X_1\)。注意:此时 \(X_1\)\(Y\) 的影响大小依赖于 \(X_1\) 的当前值——即异质效应(heterogeneous effect),Ch 9–11 的 CATE 元学习器正是为此而设。\(X_1^2\) 又是 \(X_1\) 与自身的交互项(interaction),\(X_1 \cdot X_1\) 的特例。

  • 回归假设(必须满足才能做因果解释)

  • 参数线性(linearity in parameters)
  • 同方差性(homoscedasticity)
  • 观测独立性(independence of observations)
  • 固定 \(X\)\(Y\) 的正态性(normality of \(Y\)) 详见 Westfall & Arias (2022, pp. 17–19)。

关键结论

  • 线性回归是无方向的 rung-1 工具;相同回归系数可以出自完全不同的因果图(观测等价性)。
  • 统计控制没有"多多益善"——错误地控制 collider 反而引入虚假关联;不控制 confounder 则保留虚假关联。本章的四模型实验是 Ch 5 详述 d-separation 的最重要铺垫。
  • 当(且仅当)因果图已知 + 真实系统参数线性时,回归系数 = 因果效应(Pearl 2013)。
  • 在观察数据上跑回归并直接做因果解释,是真实数据分析中最常见的错误——隐藏 confounding 的概率高到无法安全地做。
  • 非线性项让回归的解释从"单值因果效应"变成"依赖于变量当前值的异质效应"——这是 Part 2 Causal Inference 要解决的中心问题。
  • Cinelli, Forney & Pearl (2022) 的"好控制 / 坏控制"框架是对 Becker et al. (2016) 的因果升级:好控制 = 阻断 confounding 且不打开 collider;坏控制 = 打开了新的非因果路径。

挑战和开放性问题

  • 控制变量选择的可计算化:在变量数 \(\sim 100\) 的真实数据中,控制集有 \(2^{100}\) 种选择,Becker 等人的启发式无法穷尽。需要 causal discovery (Ch 12–14) 或先验领域知识辅助。
  • 参数线性假设的局限:当真实系统非参数线性时(如医学中的剂量响应曲线),回归系数不再等于因果效应;需要 double machine learning (DML) 或 causal forest(Ch 10)这样的非参数方法。
  • 观测等价性的不可解性:仅靠观察数据无法在因果等价类(Markov equivalence class)内区分不同 DAG;必须引入干预或假设(如 faithfulness、causal sufficiency)。
  • p-值的滥用问题:Wasserstein & Lazar (2016) 的 ASA 声明已经 8 年,但实践中 p-值滥用依然普遍;置信区间的因果解读与频率派统计差异仍未被广泛理解。
  • 多元共线性(multicollinearity):当多个控制变量高度相关时,回归系数方差爆炸,符号可任意翻转——这一统计现象在因果图中对应"控制了一条不必要的边"。
  • 异方差-因果性的耦合:Hoscedasticity 假设在因果推断中常被违反(处理效应异质 + 控制集选择偏差),需要 robust standard error 或 bootstrap。

个人反思与批判性分析

本章是连接 Ch 1–2 哲学与 Ch 4–11 工程化方法的关键过渡,也是最容易"用错"的一章:

  • 四模型实验是教学上极精巧的设计:单一 \(A\) 控制 vs \(B\) 控制 vs 二者 vs 不控制四种情形,把 confounding / collider / 抵消三种机制在一个 5 变量 SCM 内展示。值得注意的是,作者先让读者写下假设再揭示答案——这是 Pearl 教学法的标志,但在工程实践里读者通常不会做这一步。生产代码里常直接 StandardScaler + OLS 跑全控制集,得出 \(-2.000\) 这种"看起来对"的系数,但 \(p < 0.001\) 的虚假显著。
  • Cinelli et al. (2022) "好控制/坏控制"是本章的隐藏金矿:作者只给了链接,未充分展开。实际上 Cinelli et al. 给出了封闭公式判断任意控制变量对 treatment effect 估计的偏差贡献(包含 collider / mediator / M-shape 等 12 种情况)。做医学或经济学数据分析的人应当把它打印在墙上。
  • Pearl (2013) "线性显微镜"立场的隐含危险:作者强调"当因果图已知 + 系统参数线性"时回归是显微镜。但真实生物系统几乎从不参数线性——SMC G&R 中管壁应力对应变率的幂律响应是 0.5–1 阶非线性;细胞骨架的 force-dipole 响应是非线性张量场。把非参数线性系统强行套用"回归 = 因果"会导致系数与真实因果量级差几个数量级。本章没强调这一点。
  • 观测等价性的实践后果:在没有 RCT 的真实数据中,OLS 永远不能直接证明因果——只能在"已假设的因果图"上做一致性检验。这与"data-driven causal discovery"营销话术正相反;Ch 13 揭示的 NOTEARS 等算法仍然依赖 faithfulness 等难以验证的假设。
  • 对个人研究的启发:我在做血管生物力学时,常被"哪些人口学/影像学变量该作为协变量"困扰。本章的教训是:先画因果图,再决定控制集。在 SMC G&R 框架下,年龄是动脉硬化的强 confounder(同时影响血压与管壁重塑),必须控制;性别则常是 effect modifier(女性 vs 男的硬化速率不同),而非 confounder——若强行以"加更多协变量"为目标控制性别,会引入新的 collider 路径。正确的做法:根据生物学因果图选择协变量,而非依据"能加就加"。
  • Becker 10 条建议 vs Pearl 因果图:Becker 的启发式本质上是 Pearl 框架的退化版(控制 confounder 不控制 collider)。当因果图已知时,因果图方法严格优于启发式;当因果图未知时,启发式是次优但稳定的退路。Cinelli et al. (2022) 是这两端的桥梁——基于观察数据 + 假设做偏差界估计。

重要参考文献

  • [X1] Becker, T. E., Atinc, G., Breaugh, J. A., Carlson, K. D., Edwards, J. R., & Spector, P. E. (2016). Statistical control in correlational studies: 10 essential recommendations for organizational researchers. Journal of Organizational Behavior, 37(2), 157–167 — 本章统计控制 10 条建议的来源。
  • [X2] Cinelli, C., Forney, A., & Pearl, J. (2022). A Crash Course in Good and Bad Controls. Sociological Methods & Research, 0(0), 1–34 — "好控制 / 坏控制"的因果图分类法;本章末附链接的"含金量最高"参考。
  • [X3] Pearl, J. (2013). Linear Models: A Useful "Microscope" for Causal Analysis. Journal of Causal Inference, 1(1), 155–170 — "线性模型 = 因果显微镜"立场的原始论述。
  • [X4] Pearl, J. (2012). The causal foundations of structural equation modeling. In Hoyle, R. H. (Ed.), Handbook of Structural Equation Modeling (pp. 68–91). Guilford Press — SEM 与因果关系的奠基性论述。
  • [X5] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — 观测等价性概念的来源;Ch 2 给出 SCM 形式化。
  • [X6] Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133 — 美国统计协会对 p-值滥用的官方声明;本章 p-值框注的来源。
  • [X7] Westfall, P. H., & Arias, A. L. (2022). Understanding Regression Analysis: A Conditional Distribution Approach. CRC Press — 线性回归四大假设(线性/同方差/独立/正态)的标准教材。
  • [X8] Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press — 互信息等基于熵的非线性关联度量,本章非线性框注的来源。
  • [X9] Bollen, K. A., & Noble, M. D. (2011). Structural equation models and the quantification of behavior. PNAS, 108(Suppl 3), 15639–15646 — SEM 作为多变量建模技术的综述,与 SCM 的术语差异说明。
  • [X10] Kline, R. B. (2015). Principles and Practice of Structural Equation Modeling (4th ed.). Guilford Press — SEM 的标准教材;本章 SEM 框注的参考。
  • [X11] Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley — 潜变量 SEM 的经典教材(隐式引用)。
  • [X12] Wooldridge, J. M. (2010). Econometric Analysis of Cross-Section and Panel Data (2nd ed.). MIT Press — 面板数据因果推断标准教材(隐式引用,Ch 8 也会用到)。