第二章:从海盗到因果豚鼠——因果推断的起源
一、章节概述与背景
本章是《为什么》一书中极为关键的一章,讲述了因果推断如何在统计学与遗传学的交叉地带艰难诞生。本章标题寓意深刻:"海盗"(buccaneers)指的是以卡尔·皮尔逊为代表的一类学者,他们以激进方式将因果关系从统计学领域驱逐出去;"豚鼠"(guinea pigs)则是指塞尔默·赖特,他的职业生涯与豚鼠研究密不可分,利用豚鼠遗传实验创建了因果图方法。
本章核心主题可概括为:因果关系如何在二十世纪初期被从科学中驱逐,以及塞尔默·赖特如何独立地、几乎单枪匹马地开创了因果推断的先河。Pearl以"Whig historian"(改革派历史学家)自居,以现代因果推断视角重新审视这段历史,找出统计学为何及如何失去了因果关系这一重要概念。
从历史线索来看,本章涵盖从1877年高尔顿在皇家Institution的著名演讲,到1920年赖特发表第一篇关于路径图的论文,再到1983年九十多岁高龄的赖特最后一次为路径图辩护的整个历程。这段历史跨越将近一个世纪,期间因果推断进展极为缓慢,甚至在1920年代到1960年代之间几乎处于停滞状态。
二、关键问题与研究动机
本章围绕以下几个核心问题展开:
问题一:高尔顿为何从寻找因果走向相关? 弗朗西斯·高尔顿最初怀着寻找因果关系的愿望开始研究人类身高遗传,但他发现的"回归现象"最终导致他放弃了因果解释,转而拥抱相关关系。这一历史irony的深层原因是什么?
问题二:皮尔逊如何系统性地驱逐因果关系? 卡尔·皮尔逊受到实证主义哲学影响,认为科学只是对人类思想的描述,因此因果概念不可能具有科学意义。他如何将高尔顿的发现推向极端?
问题三:赖特的路径分析为何遭到抵制? 1920年代赖特发明了革命性的路径图方法,却遭到当时统计学界的强烈反对。亨利·奈尔斯在1921年发表尖刻批评文章,引用皮尔逊的话说"因果对比相关是不合理的,因为因果只是完美的相关"。
问题四:为何因果推断停滞了四十年? 生物学家詹姆斯·克劳称这是"科学史上从1920年到1960年的一个谜团",经济学家阿瑟·戈德berger称之为"臭名昭著的忽视"。
研究动机在于理解这段历史教训:正是因为缺乏因果推理的语言和工具,统计学才变成了一个"模型盲目的数据reduction(数据简化)事业"。
三、公式推导与理论框架
3.1 回归与相关理论
回归方程: $\(Y = \beta_0 + \beta_1 X + \varepsilon\)$
其中 \(\beta_1\) 为回归系数,\(\varepsilon\) 为误差项。
皮尔逊相关系数: $\(r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}}\)$
衡量 X 与 Y 的线性相关程度。相关关系的一个重要特性是其方向的对称性——无论是从原因到结果还是从结果到原因进行预测,回归线的斜率都是相同的,这表明相关关系本身对因果方向是"不可知"的。
向均值回归(高尔顿回归方程): $\(Y_{pred} - \bar{Y} = r \cdot \frac{\sigma_Y}{\sigma_X}(X - \bar{X})\)$
高尔顿最初认为这是一个因果过程,类似于胡克定律描述的弹簧恢复平衡的物理机制,但实际上这只是一个数学统计规律,无需因果解释。
3.2 路径分析理论
路径分析基本方程: $\(P_{ij} = \sum_{k} p_{ik} \cdot p_{kj}\)$
从原因 \(i\) 到结果 \(j\) 的总因果效应等于所有路径的路径系数之积之和。这是赖特路径分析的核心公式,第一次建立了从因果世界(第二层级)到相关世界(第一层级)的数学桥梁。
标准化路径系数: $\(p_{ij} = \frac{\partial Y_j}{\partial Y_i} \cdot \frac{\sigma_i}{\sigma_j}\)$
赖特路径系数,\(\sigma_i\) 为变量 \(i\) 的标准差。在赖特的解释中,路径系数表示源变量对目标变量的变异所能解释的比例。在现代因果推断中,路径系数则代表对源变量进行假设性干预的结果。
因果效应分解: $\(r_{XY} = \sum_{k} p_{Xk} \cdot r_{Yk}\)$
观察相关等于所有因果路径贡献之和加上剩余相关。这一公式表明,观察到的相关性可以被分解为沿着一系列因果路径传递的效应。
3.3 群体遗传学理论
哈迪-温伯格平衡: $\(p^2 + 2pq + q^2 = 1\)$
群体遗传学中等位基因频率的平衡条件,\(p\) 和 \(q\) 为等位基因频率。这一平衡解释了为什么人类身高的分布在世代之间保持稳定——只有遗传因素跨世代传递,而随机因素每一代都独立重新生成。
3.4 中心极限定理
由皮埃尔-西蒙·拉普拉斯在1810年证明,该定理指出任何大量独立随机因素之和都会趋向于正态分布(即钟形曲线)。高尔顿的quincunx(一种类似弹珠台的实验装置)就是中心极限定理的可视化演示。
四、算法方法与实践应用
4.1 高尔顿的quincunx实验
1877年2月9日,高尔顿在皇家Institution发表著名演讲,题目是"遗传的典型定律"。他向观众展示quincunx机器(后来被称为Galton board),这是一种类似弹珠台的装置,小球从上往下弹跳,最终在底部的槽中堆积成钟形曲线。
然而,高尔顿注意到如果让球通过两层quincunx,钟形曲线会变得更宽。他设计了倾斜的滑槽来将"第二代"球移回中心,声称这就是大自然确保人类身高分布保持稳定的机制。现在知道这个解释是错误的——回归到平均值不是因为某种因果恢复力,而是因为统计学上的数学必然性。
4.2 豚鼠毛色遗传之谜
赖特在1912年来到哈佛大学研究遗传学,导师威廉·卡斯尔给他分配任务:研究影响豚鼠毛色的遗传因素。赖特发现豚鼠毛色遗传模式极其复杂——即使经过多代近亲繁殖,豚鼠家庭仍然存在显著变异(从全身白色到全身彩色),这与孟德尔遗传学的预测不符。
赖特正确推断出"发育因素"必须在决定毛色中发挥作用——胚胎在子宫中发育时,其毛色图案会受到基因表达位置和方式的额外影响。基于20年的豚鼠数据,赖特计算出在随机繁殖的豚鼠种群中,42%的毛色变异是由遗传决定的,58%是由发育因素决定的;而在高度近亲繁殖的家庭中,只有3%的变异是由遗传决定的,92%是由发育因素决定的。
4.3 出生体重与妊娠期案例
赖特在1921年的论文中展示了一个特别精彩的案例研究:豚鼠的出生体重受妊娠期(出生前在子宫中停留的天数)和生长率两个因素影响。数据显示,妊娠期多一天的豚鼠出生时平均重5.66克。
但赖特指出这个数字是有偏的——因为妊娠期更长的豚鼠通常是因为窝仔数更少(即竞争对手更少),这本身就会导致它们出生时更重。赖特通过路径分析成功将这两种效应分开:他计算出妊娠期的直接因果效应是每天3.34克,而5.66克这个数字混淆了妊娠期效应和窝仔数的间接效应。
分解公式:\(\text{Total} = \text{Direct} + \text{Indirect}\),即 \(5.66\text{g} = 3.34\text{g} + 2.32\text{g}\)(妊娠期效应 + 窝仔数间接效应)
3.34克具有明确的生物学意义——它告诉我们出生前日子里豚鼠胚胎的生长速度;而5.66克没有任何生物学意义,因为它混合了两种不同的过程。
4.4 虚假相关识别
巧克力与诺贝尔奖:一个国家的人均巧克力消费与该国诺贝尔奖获得者的数量之间存在强相关。这个相关看起来"愚蠢",因为我们无法想象吃巧克力会以任何方式导致诺贝尔奖。Pearl认为更可能的解释是,财富和西方生活方式是这两个变量的共同原因——富裕国家的人们吃更多巧克力,诺贝尔奖也更倾向于从这些国家中产生。
皮尔逊的颅骨数据(辛普森悖论早期案例):皮尔逊在1899年发现分别计算男性或女性的颅骨长度与颅骨宽度之间的相关性可以忽略不计,但当两个组被合并时,相关性变成了0.197。这个例子实际上是现在所称的"辛普森悖论"的一个早期案例。
五、主要结论与核心洞见
5.1 高尔顿的悲剧性转折
高尔顿最初是怀着寻找因果关系的愿望开始研究工作,但他的发现最终导致因果关系被驱逐出统计学。高尔顿在1889年意识到错误:钟形曲线的宽度保持稳定并不是因为存在某种因果恢复力,而是因为遗传特性与随机因素的混合本来就会产生稳定的分布。
更重要的是,高尔顿发现回归现象是可逆的——不仅高个子父亲的儿子会向平均身高回归,高个子儿子的父亲也会向平均身高回归。如果儿子的身高不能影响父亲的身高,那么回归现象就不可能是任何因果过程。这是一个关键的洞察,但它使高尔顿放弃了因果解释,转而拥抱了相关关系。
5.2 皮尔逊的因果排斥
皮尔逊受到实证主义哲学的深刻影响,认为科学只是对人类思想的描述,而因果概念如果被解释为客观存在于人脑之外的世界中的过程,就不可能具有科学意义。因此,对皮尔逊来说,唯一有科学意义的是观察到的模式之间的相关性。
皮尔逊将高尔顿的相关概念提升到了一个近乎宗教信仰的地位。他在1892年的《科学的语法》中写道:"在某个序列在过去已经发生并反复发生这一事实,是我们用因果概念来表达的一种经验……科学在任何情况下都不能证明某个序列中的固有必然性。"
皮尔逊立场的内在矛盾:尽管他宣称因果关系没有科学意义,但他自己也写了许多关于"虚假相关"的论文,而虚假相关的概念只有在参考因果关系时才能有意义。他在解释为什么某些相关是"虚假的"而其他的不是时,实际上是在做因果推理——他说真正的相关表明变量之间存在"有机关系",而这不就是因果关系的另一个名称吗?
5.3 赖特的因果革命
赖特在1920年发明了世界上第一个因果图模型。路径图是一种有向无环图,其中每个箭头代表一个因果效应,箭头上的系数(路径系数)代表该因果效应的强度。
赖特的伟大之处在于他不仅仅停留在假设层面,而是创建了一套完整的数学方法。如果已知路径图中所有因果效应的强度(路径系数),就可以预测数据中应该观察到的相关性。反过来,通过测量实际的相关性并结合已知的因果结构,他可以用代数方法解出未知的路径系数。
这意味着赖特发明了第一个从数据中推断因果效应的数学方法。他的路径图是"因果推断的街道地图",它告诉如何导航从第一层级(观察数据的相关性)到第二层级(因果效应的大小)。
5.4 "相关不等于因果"的重新思考
赖特的工作对"相关不等于因果"这一统计学格言提出了挑战。赖特的方法第一次证明了"某些相关确实意味着因果"——当因果结构足够简单且已知时,我们可以从观察数据中计算出因果效应的大小。
关键在于:赖特自己也强调,你不能从零开始推断因果关系——你必须有一些因果假设作为前提。问题在于,在赖特之前,统计学界完全拒绝承认这种可能性。他们采取了"相关不等于因果"这一格言的最极端版本,认为相关永远不能告诉我们任何关于因果关系的信息。赖特的贡献在于他证明了在某些条件下,我们可以从相关推断因果——关键是那些条件是什么。
六、挑战与开放问题
6.1 关于高尔顿的回归解释
高尔顿错误地认为回归到平均值是一个因果过程,但后来认识到这只是一个统计规律。然而,Pearl指出,即使在今天,仍然有许多人犯与高尔顿相同的错误——为回归到平均值寻找因果解释。例如,棒球新秀年度最佳球员在第二年表现下滑,人们往往将其归因于过度自信或对手已经研究透了他的弱点,但实际上这可能只是统计上的回归现象。
开放问题:是否有可能存在这样的情况——回归到平均值既有统计原因也有因果原因?如何区分这两种情况?
6.2 关于虚假相关的识别
Pearl在本章中讨论了虚假相关的各种来源:混淆(例如巧克力与诺贝尔奖的例子,财富是共同原因)、时间序列数据中的虚假相关(例如英国死亡率与英国国教会婚礼比例之间的相关,两者都有时间趋势但没有因果关系)、以及辛普森悖论中的虚假相关。
开放问题:我们如何系统地区分真实相关和虚假相关?是否有可能开发出一种算法来自动识别虚假相关,还是说这本质上需要领域知识?
6.3 关于路径分析的可扩展性
赖特的路径分析在处理少量变量时效果很好,但问题在于它假设所有关系都是线性的。当变量之间的关系是非线性时,路径分析方法就不适用了。Pearl在本章中提到,汤姆斯·维尔姆在三年后(1986年)开发了一个通用的非线性理论。
开放问题:非线性因果关系的处理在现代因果推断中处于什么地位?现代的因果发现算法如何处理非线性关系?
6.4 关于Fisher与赖特的竞争
Pearl简要提到Fisher和赖特之间的竞争主要围绕进化生物学,而非路径分析本身。Fisher不同意赖特的遗传漂移理论——即物种在经历种群瓶颈时可以通过突然的遗传变化快速进化。
开放问题:Fisher与赖特在遗传漂移问题上的分歧是否也影响了统计学界对路径分析的接受程度?科学中的个人冲突如何影响特定方法的传播和接受?
6.5 从1920年到1980年代的停滞原因
Pearl识别出了几个原因:首先,路径分析不容易被"自动化"——用户必须有自己的假设,并必须设计一个适当的多重因果序列图。这与Fisher等人倡导的统计学方法形成鲜明对比,后者强调"数据reduction"的方法,可以机械地应用到任何数据上。
其次,从1930年代开始,Fisher认为赖特是他的敌人,而Fisher在那一代科学家中是无可争议的统计学权威。第三,尽管赖特在1953年被邀请向著名的考尔斯委员会发表演讲,但他完全未能向计量经济学家们传达路径图的基本概念。
到了1960年代,社会科学家们重新发现了路径分析,包括社会学家Otis Duncan、Blalock和经济学家Arthur Goldberger。但即使是这些重新发现也带来了新的问题:社会学家将路径分析重新命名为"结构方程模型"(SEM),并在1970年代当计算机程序LISREL实现了路径系数的自动化计算时,路径分析变成了一个机械的方法,用户几乎没有兴趣理解底层原理。经济学家则采取了另一种方式——他们使用了路径分析的代数部分(即联立方程模型),但完全不使用路径图,这导致他们无法区分因果方程和回归方程,因此无法回答政策相关的问题。
6.6 主观性与客观性的平衡
Pearl强调因果推断需要一定程度的主观性——用户必须愿意对他们认为存在的因果关系做出假设。这与统计学长期追求的客观性形成了对比。Pearl认为,在因果推断中,"一盎司明智的主观性比任何数量的客观性更能告诉我们关于真实世界的答案"。
开放问题:在实际研究中,我们如何在利用因果假设的力量与避免过度主观之间找到平衡?是否存在客观的方法来验证因果假设本身的合理性?
七、个人反思与批判性分析
7.1 为什么统计学界如此抗拒因果?
Pearl详细讨论了统计学界对因果关系的抗拒,这给我留下了深刻印象。我认为这种抗拒有深层次的认识论根源。从皮尔逊的时代开始,统计学就追求客观性的理想——科学应该只基于数据和观察,而不应该基于主观的假设和理论。因果关系需要我们对世界的运作方式做出主观的承诺,这与客观性的理想形成了直接冲突。
然而,正如Pearl正确指出的,因果推断确实需要一定程度的主观性。你必须愿意对你认为存在的因果关系做出假设——这些假设来自于你的领域知识,而不是来自于数据本身。这并不意味着因果推断是"纯粹主观的"——一旦两个人同意他们的假设,他们从相同的数据中会得出相同的因果结论。因果推断在"给定假设的条件下提供客观解释"这个意义上与贝叶斯推断是相同的。
关键问题在于,统计学界对客观性的追求导致他们拒绝任何需要主观输入的方法。Pearl指出,皮尔逊等人追求的"模型自由方法"(model-free approach)实际上只能让我们停留在因果阶梯的第一层级,而无法回答任何需要因果解释的问题。这就像统计学给自己带上了一副眼罩,然后宣称世界只能通过触摸来理解。
7.2 赖特的勇气与孤独
我对赖特在1921年面对Niles的批评时表现出的勇气深感敬佩。想象一下当时的场景:一个自学成才的数学家,面对整个统计学权威机构的反对,他们告诉你你的方法在哲学上是错误的,在实践中是不可靠的。甚至他的老师也在批评他。Pearl写道,赖特在"幼儿园"里坚持认为3+4=7,而每个人都在告诉他3+4=8。
赖特的勇气部分可能来自于他的背景——他在中西部的一个小学院接受教育,在那里他学会了自力更生,学会了相信自己的构建知识的能力。但更重要的是,赖特知道他可以回答那些用任何其他方法都无法回答的问题。他有内部的信念,坚信路径系数确实能告诉我们关于因果关系的信息,即使当时没有任何理论基础支持他的想法。
7.3 辛普森悖论的教训
Pearl多次提到辛普森悖论,这给我留下了深刻印象。辛普森悖论指的是当数据被合并或分组时,可能会出现与原始数据完全相反的趋势。例如,在豚鼠颅骨的例子中,男性和女性分别来看,颅骨长度和宽度之间没有相关,但合并后却出现了正相关。
这个悖论的教学意义在于,它说明了我们不能仅仅通过看数据来判断因果关系——我们需要知道数据的生成过程,即因果结构。只有知道了因果结构,我们才能知道是应该合并数据还是分组数据。统计学在皮尔逊的领导下完全忽视了这一点,这可能是他们驱逐因果关系的最严重后果之一。
7.4 对现代大数据时代的启示
Pearl在本章的最后讨论了为什么因果推断对现代大数据时代仍然至关重要。他指出,卡尔林等人在1983年提出的"模型自由方法"实际上与现在的大数据理念高度一致——"数据的答案就在数据中,只需要用正确的技术来挖掘"。Pearl正确地反驳说,这种方法只能让我们停留在因果阶梯的第一层级,永远无法回答需要因果解释的问题。
这个观点在今天看来尤其重要。随着机器学习和人工智能的兴起,有一种趋势认为我们只需要有足够多的数据,算法就能发现一切。但因果推断告诉我们,有些问题的答案不能从数据中获得——它们需要我们对数据的生成方式做出假设。赖特在1920年代就知道这一点,我们今天没有理由忘记它。
7.5 批判性思考
Pearl以"Whig historian"自居,这种立场虽然有助于强调因果推断的重要性,但也可能导致对历史人物的评价过于苛刻。皮尔逊的立场虽然极端,但他的担忧并非完全没有道理——在没有充分证据的情况下轻率地做出因果结论,确实可能导致错误的科学推断。
然而,Pearl的论点是,皮尔逊的方法虽然谨慎,但实际上导致了另一个极端——完全放弃因果推理,这种做法同样是有害的。因果推断的平衡需要我们在做出因果结论时保持谨慎,但同时也要承认在某些条件下从数据中推断因果关系是可能的,也是必要的。
公式汇总表
| 编号 | 名称 | LaTeX 公式 | 说明 |
|---|---|---|---|
| (1) | 回归方程 | \(Y = \beta_0 + \beta_1 X + \varepsilon\) | 简单线性回归模型,\(\beta_1\) 为回归系数,\(\varepsilon\) 为误差项 |
| (2) | 相关系数 | \(r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}}\) | 皮尔逊相关系数,衡量 X 与 Y 的线性相关程度 |
| (3) | 路径分析基本方程 | \(P_{ij} = \sum_{k} p_{ik} \cdot p_{kj}\) | 从原因 \(i\) 到结果 \(j\) 的总因果效应等于所有路径的路径系数之积之和 |
| (4) | 标准化路径系数 | \(p_{ij} = \frac{\partial Y_j}{\partial Y_i} \cdot \frac{\sigma_i}{\sigma_j}\) | 赖特路径系数,\(\sigma_i\) 为变量 \(i\) 的标准差 |
| (5) | 因果效应分解 | \(r_{XY} = \sum_{k} p_{Xk} \cdot r_{Yk}\) | 观察相关等于所有因果路径贡献之和加上剩余相关 |
| (6) | 哈迪-温伯格平衡 | \(p^2 + 2pq + q^2 = 1\) | 群体遗传学中等位基因频率的平衡条件,\(p\) 和 \(q\) 为等位基因频率 |
| (7) | 向均值回归 | \(Y_{pred} - \bar{Y} = r \cdot \frac{\sigma_Y}{\sigma_X}(X - \bar{X})\) | 高尔顿回归方程,\(r\) 为相关系数 |
| (8) | 出生体重效应分解 | \(\text{Total} = \text{Direct} + \text{Indirect}\) | 赖特的分解:\(5.66\text{g} = 3.34\text{g} + 2.32\text{g}\)(妊娠期效应 + 窝仔数间接效应) |
注释:上述公式中,\(p_{ij}\) 表示从变量 \(i\) 到变量 \(j\) 的路径系数,\(r_{XY}\) 表示变量 \(X\) 与 \(Y\) 之间的相关系数。路径分析的核心思想是:观察到的相关性 \(r_{XY}\) 可以被分解为沿着一系列因果路径传递的效应。
参考文献与延伸阅读
- Pearl, J. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Galton, F. (1889). Natural Inheritance.
- Wright, S. (1920). The Relative Importance of Heredity and Environment in Determining the Piebald Pattern of Guinea-Pigs. Proceedings of the National Academy of Sciences.
- Wright, S. (1921). Correlation and Causation. Journal of Agricultural Research.
- Pearson, K. (1892). The Grammar of Science.
- Stigler, S. M. (1999). Statistics on the Table: The History of Statistical Concepts and Methods.
- Porter, T. M. (2004). Karl Pearson: The Scientific Life in a Statistical Age.
本笔记撰写于2026年5月10日,为《为什么》第二章的详细阅读记录。