第9章 生物统计学与人工智能(Biostatistics and Artificial Intelligence)
作者
- Lance A. Waller, BS, PhD(通讯作者)— Department of Biostatistics and Bioinformatics, Rollins School of Public Health, Emory University, Atlanta, GA. 统计学家视角——是本书中唯一专门从统计学角度看 AI 的章节作者。
本章是Part I 的"统计 vs AI"哲学收尾。与 Ch 1-8 的"工程视角"不同,本章是统计学家对 AI 的批判性思考——讲"传统统计 vs ML 两种范式各自的强项,以及为什么两者都不能丢"。读者应已熟悉 Ch 1-8 全部内容。
内容概述
本章提出一个核心问题:"数据丰富时代,AI 是否会取代传统统计学?" 核心论点:(1) 数据范式正在转移——从"小样本、专门采集"到"大数据、相关数据"——驱动分析范式从"估计"转向"预测";(2) 统计学与 ML 是两种文化(Breiman 2001 的经典论断)——统计学用概率分布解释数据、估计因果;ML 用大量数据训练算法、关注预测——两者不必互斥;(3) AI/ML 的关键陷阱——不平衡设计的 PPV 灾难、多重比较、p-hacking、未识别混杂——这些"统计学家早就知道但 AI 社区常忽视"的问题;(4) Vollmer 2020 BMJ 的 20 个关键问题——评估 AI 研究质量的 6 大类问题(研究动机、数据、统计方法、可复现性、影响评估、实施);(5) Willie Sutton 原则——"用所有可用的工具,因为信息就在那里"。本章是整个 Part I 的批判性总结,也预告 Part II 的临床应用。
核心方程与概念
0. 几个量化表达
-
PPV 公式(Bayes 定理): $\(\mathrm{PPV} = \frac{\mathrm{Se} \cdot P}{\mathrm{Se} \cdot P + (1 - \mathrm{Sp}) \cdot (1 - P)}\)$ 其中 \(\mathrm{Se}\) = sensitivity(灵敏度)、\(\mathrm{Sp}\) = specificity(特异度)、\(P\) = 患病率(prevalence)。
-
PPV 在 99% 灵敏 + 95% 特异度下的演变(固定 100 个真阳性):
- 患病率 50%(100/200):PPV = 99/104 ≈ 95.2%
- 患病率 1/10(100/1000):PPV = 99/149 ≈ 66.4%
-
患病率 1/1000(100/100,000):PPV = 99/5099 ≈ 1.9%
-
关键等式:
- \(\mathrm{Se} + \mathrm{FNR} = 1\)(在患者中)
- \(\mathrm{Sp} + \mathrm{FPR} = 1\)(在非患者中)
-
\(\mathrm{Se}, \mathrm{Sp}\) 不可直接相加,因为它们是不同分母的比率。
-
统计与 ML 的对照表(本章核心对比):
| 维度 | 传统统计学 | 机器学习 |
|---|---|---|
| 目标 | 估计参数、推断因果 | 优化预测 |
| 数据规模 | 小样本(\(n\) 数十-数百) | 大数据(\(n\) 数万-数百万) |
| 维度 | 低维(\(p \ll n\)) | 高维(\(p \gg n\)) |
| 模型 | 概率分布假设(parametric) | 灵活函数逼近(nonparametric) |
| 输出 | 置信区间、p 值 | 预测概率、AUC |
| 可解释性 | 高(系数、OR) | 低(黑盒) |
| 因果 vs 关联 | 因果为主 | 关联为主 |
1. Breiman 2001 的"两种文化"
- 传统统计文化:"数据来自某个概率模型 \(P(X, Y \mid \theta)\),目标是估计 \(\theta\) 并推断因果"——经典 Neyman-Pearson 假设检验。
- ML 文化:"数据就是数据,目标是找到一个 \(f(X) \to Y\) 的函数使预测误差最小"——不在乎 \(f\) 是否有概率解释。
- Breiman 的警告:ML 文化的兴起不是统计学的终结——而是统计学需要进化,与 ML 结合。
2. 数据范式的转移
- 传统范式:"我想研究 X,所以专门采集 X 的数据"——小样本、专门设计。
- 新兴范式:"我有大量相关数据(EHR、生物样本库、社交媒体),从里面找 X"——大数据、不专门设计。
- 问题:当数据是"available-but-imperfect"时,何时优于"focused but small"?
3. 估计 vs 预测的范式转移
- 传统统计学主攻"估计"\(E[Y \mid X, T]\) 在不同处理 \(T\) 下的差异——因果问题。
- 新兴数据科学主攻"预测"\(E[Y \mid X]\)——预测问题。
- 预测不等于因果——"秋季 NBA 搜索 + 流感搜索都增加"——同时增长不等于因果,但作为预测变量是有用的。
- 关键洞见:临床 AI 通常是预测("这患者 5 年内会不会心梗")而非因果("他汀是否降低他心梗风险")。两者需要不同的方法。
4. 评估诊断测试的 4 个量
- Sensitivity (Se, 灵敏度) = TP / (TP + FN) = 患病人群中检测阳性的比例。
- Specificity (Sp, 特异度) = TN / (TN + FP) = 健康人群中检测阴性的比例。
- PPV (Positive Predictive Value, 阳性预测值) = TP / (TP + FP) = 检测阳性中真患病的比例。
- NPV (Negative Predictive Value, 阴性预测值) = TN / (TN + FN) = 检测阴性中真健康的比例。
- 关键关系(Bayes 定理): $\(\mathrm{PPV} = \frac{\mathrm{Se} \cdot P}{\mathrm{Se} \cdot P + (1 - \mathrm{Sp}) \cdot (1 - P)}\)$
- 核心陷阱:Se/Sp 是模型特性(不随患病率变化),PPV/NPV 是临床特性(强烈依赖患病率)。AUC 高但 PPV 低的"假阳性灾难"是 ML 在低患病率场景的典型失败。
5. 不平衡设计(Unbalanced Design)—— ML 社区的"再发现"
- ML 社区经常重新发现"PPV 在低患病率下崩溃"——然后尝试"调整算法权重"——而不是接受"这是诊断系统的内在属性"。
- 多层诊断(multi-layer diagnosis)类似"筛查 → 确诊"的临床流程——可控制 PPV。
- 深度学习的"层层提炼"是这一思想的工程化体现。
6. Vollmer 2020 BMJ 的 20 个关键问题(6 大类)
- 研究起源:什么信息/假设驱动了研究?
- 研究设计:数据如何与研究问题相关?患者如何参与?
- 统计方法:什么分析方法得出了研究结论?
- 可复现性:数据是否可被其他研究者获取?以什么形式?
- 影响评估:研究结果如何泛化到总体?
- 实施评估:AI 模型在实际患者护理中是否具有成本效益?
7. 多重比较与 p-hacking
- 问题:测试 100 个特征 × 100 个结局 = 10,000 次统计检验。在 5% 显著水平下,即使所有假设都无效,也会有 ~500 个"显著"结果。
- p-hacking:选择性报告"显著"结果 → 发表偏倚。
- 修正方法:Bonferroni 校正、Benjamini-Hochberg FDR 控制。
- 预注册(pre-registration):在收集数据前注册假设和分析计划——是应对 p-hacking 的最有效手段。
- Head 2015 PLoS Biol:"p-hacking 在科学中的程度和后果"——揭示问题严重性。
关键结论
- 统计学与 ML 是两种文化(Breiman 2001),不是替代关系。
- 数据范式正在转移——从"小样本专门设计"到"大数据相关发现"——这是 AI 兴起的真正驱动力。
- AI 系统的临床效用必须用PPV/NPV评估,而不是 AUC——AUC 高但 PPV 低是低患病率场景的典型陷阱。
- Vollmer 2020 的 20 个关键问题是评估 AI 研究的标准化清单——任何严肃的 AI 论文都应回答其中至少一部分。
- 可复现性危机——AI 论文的可复现率远低于其他领域(Vollmer 2020 综述指出很多 ML 论文无法独立复现)。
- 传统统计在 AI 中仍有不可替代的角色——样本量估计、p 值、置信区间、可复现性评估都是统计学家的强项。
- "Willie Sutton 原则"——"用所有可用的工具,因为信息就在那里"——反对单一阵营的极端立场。
- p-hacking 普遍存在——必须在 AI 研究中预注册假设和分析计划。
- 因果 ≠ 关联——临床 AI 通常做预测(关联),但临床决策需要因果——这要求 AI 研究者具备基本的因果推断素养(Ch 22 部分涉及)。
挑战和开放性问题
- PPV 灾难的真实代价——很多 AI 论文报道 AUC 0.95,但没在真实临床场景测过 PPV——实际 PPV 可能 < 20%。FDA 批准的 AI 工具中有几个真实改善了 PPV?数据不清。
- 预注册的实践障碍——AI 项目经常"数据驱动的探索"(先看数据再定假设)——预注册难以执行。需要在"探索性 AI"和"验证性 AI"之间找平衡。
- Vollmer 20 问题的"自填答案"风险——研究者可以"看起来回答了"20 个问题但没有实质答案——需要第三方审核。
- 可复现性的跨学科障碍——统计学家的可复现标准(公开数据 + 代码)vs AI 工程师的实践(GitHub gist + Colab notebook)——后者质量参差不齐。
- AI 的"领域知识整合"挑战——传统统计学长期强调"领域知识 + 模型"(如 Cox 比例风险模型基于医学知识),AI 端到端模型通常丢弃领域知识——这是预测 vs 因果之争的核心。
- "统计显著性" vs "临床显著性"——大样本 + 小效应 → 统计学显著但临床无用。AI 模型AUC 0.55(微弱优于随机)但 p < 0.001也是发表陷阱。
- 多重比较的 AI 版本——在深度学习中,有 1 亿参数的模型等同于"做了 1 亿次检验"——但没有标准的多重比较校正。预训练 + fine-tuning 是部分缓解但不是根本解决。
- "AI 偏倚"的统计学诊断工具——DEMOGRAPHICS PARITY、EQUALIZED ODDS、CALIBRATION 等公平性指标尚未标准化。
- AI 模型的"未指定混杂"——AI 模型能学到"扫描仪型号 → 诊断"的伪相关,但因果图(causal DAG)和工具变量等传统因果推断方法在 AI 中应用仍少。
- "Breiman 2001 之后 20 年两种文化是否融合"——DAGNet、SDE-Net、贝叶斯深度学习等在尝试——但 2022 年仍未成熟。
个人反思与批判性分析
本章作为"Part I 的统计哲学收尾"是全书最独特、最有思想的章节——作者是真正有统计学功底的 PhD,给出了 AI 时代罕见的统计学家声音。
优势: - Breiman 2001 "两种文化" 论断的精准引用——是 AI/统计之争的经典起点。 - PPV 灾难的数值演示——99% 灵敏 + 95% 特异度,患病率 1/1000 时 PPV 跌到 1.9%——是 AI 论文读者必须知道的核心数字。 - Se/Sp 与 PPV/NPV 的混淆明确指出——Se + Sp = 1 是错的(分母不同)。 - Vollmer 2020 BMJ 20 关键问题是评估 AI 研究的"瑞士军刀"。 - Willie Sutton 原则——"用所有工具"——给全书一个开放、包容的总结立场。 - 数据范式转移的描述简洁有力。 - p-hacking 警告有具体论文支撑(Head 2015 PLoS Biol)。
批判与补足: 1. 太短的"深度学习"段落——只 1 段说"多层 ML = deep learning"——这是对深度学习的极度过简。Ch 6 用了 19 KB 写深度学习,Ch 9 这段不到 200 字符。统计学家视角应给深度学习的统计学解释(如 VC 维、bias-variance trade-off、double descent)。 2. 缺"贝叶斯统计学"在 AI 中的角色——现代 ML(特别是医学影像)大量使用贝叶斯方法(贝叶斯神经网络、贝叶斯优化、Hierarchical Bayesian models)——但本章作为"统计学 + AI"章节完全没提贝叶斯视角。 3. 缺"因果推断"——Pearl 2009 因果图(DAG)、do-calculus、反事实推断在医学 AI 中越来越重要(Ch 22 涉及)。本章应至少预告。 4. 缺"AI 模型可解释性的统计学框架"——SHAP、LIME 等可解释性方法本质上在做统计属性分解——可与统计学家的"敏感性分析"对话。 5. "20 个关键问题"完整列表缺失——只给了 6 大类标题,没具体展开。这本来是本章最有价值的内容,应给完整列表。 6. PPV 数字示例缺少"反例"——可以举一个"AI 真的改善了 PPV"的正面案例(如自动筛查的某些场景),让读者知道不是所有 AI 都失败。 7. "Breiman 2001 之后 20 年的实证评估"缺失——两种文化 20 年后是否真的融合?有哪些具体技术(如 Gaussian Process、Bayesian DL)是融合的产物? 8. 缺"AI 论文 vs 统计论文的可复现率对比"——Baker 2016 Nature 调查显示 70% 研究者经历过"复现失败"——AI 子领域的数据应给出。 9. "p-hacking" 的统计补救工具不足——只说了"预注册",但预注册在 AI 中难以执行——需要"注册 AI 项目的中间方案"(如 Open Science Framework 实践)。 10. "AI 时代统计学家的角色转变"未充分讨论——统计学家需要懂 ML、ML 工程师需要懂统计——但协作模式、教育体系、职业发展 都没提。
给作者的问题: - PPV 灾难的最坏案例 在医学影像 AI 中是哪一项?已有公开案例吗? - Vollmer 2020 的 20 个关键问题 中,哪一个在 AI 论文中最常被忽略? - 贝叶斯深度学习(如 Bayesian Neural Network, BNN)在医学影像中的实际应用价值——你见过的真实临床部署案例? - 统计学家的 "AI 时代转型"——你认识的统计学家同事有多少成功转型到 ML/AI 领域?多少保持"传统统计"?哪种更"有用"? - Pearl 因果图 vs ML 端到端——你的判断:在医学 AI 临床决策中,哪种路径更可能成功?
值得复现的实践: - 模拟一个 PPV 灾难:在 99% 灵敏 + 95% 特异度的"AI 模型"上,画出 PPV vs 患病率的曲线(患病率 50% → 0.01%)。 - 跑一个 100 次假设检验的模拟实验(在 0 效应下),验证 5 次"显著"结果的概率。 - 用 SHAP 或 LIME 解释一个训练好的胸部 X 线分类模型,比较"统计分解" vs "梯度解释"两种方法。 - 评估一个 AI 论文的"可复现性"——按 Vollmer 20 问题逐一打分。 - 用 Bonferroni、Benjamini-Hochberg 校正一组放射组学多特征检验,比较校正前后的"显著"特征数。
重要参考文献
[X1] Breiman L. Statistical modeling: the two cultures. Stat Sci. 2001;16(3):199–231. DOI: 10.1214/ss/1009213726. (经典"两种文化"论断) [X2] Donoho D. 50 years of data science. J Comput Graph Stat. 2017;26(4):745–66. DOI: 10.1080/10618600.2017.1384734. [X3] Vollmer S, Mateen BA, Bohner G, et al. Machine learning and artificial intelligence research for patient benefit: 20 critical questions on transparency, replicability, ethics, and effectiveness. Br Med J. 2020;368:169297. DOI: 10.1136/bmj.l6927. (20 个关键问题) [X4] Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD. The extent and consequences of p-hacking in science. PLoS Biol. 2015;13(3):e1002106. DOI: 10.1371/journal.pbio.1002106. [X5] Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019;567:305–7. DOI: 10.1038/d41586-019-00857-9. (统计学家反对"统计显著性" 宣言) [X6] Li JJ, Tong X. Statistical hypothesis testing versus machine learning binary classification: distinctions and guidelines. Patterns. 2020;1:100115. (两种范式的当代对比) [X7] Baraniuk R, Donoho D, Gavish M. The science of deep learning. Proc Natl Acad Sci USA. 2020;117:30029–32. DOI: 10.1073/pnas.2020596117. [X8] Waller LA, Miller GW. More than manuscripts: reproducibility, rigor, and research productivity in the big data era. Toxicol Sci. 2016;149(2):275–6. DOI: 10.1093/toxsci/kfv330. [X9] Baker M. 1,500 scientists lift the lid on reproducibility. Nature. 2016;533:452–4. DOI: 10.1038/533452a. (70% 复现失败率调查) [X10] Pearl J. Causality: models, reasoning, and inference. 2nd ed. Cambridge University Press; 2009. (因果推断圣经,医学 AI 必读) [X11] Wilkinson MD, et al. The FAIR guiding principles for scientific data management and stewardship. Sci Data. 2016;3:160018. DOI: 10.1038/sdata.2016.18. [X12] Burkov A. The hundred-page machine learning book. Andriy Burkov; 2019. (ML 通俗入门推荐)