第9章生物统计学与人工智能（Biostatistics and Artificial Intelligence）

作者

Lance A. Waller, BS, PhD（通讯作者）— Department of Biostatistics and Bioinformatics, Rollins School of Public Health, Emory University, Atlanta, GA. 统计学家视角——是本书中唯一专门从统计学角度看 AI 的章节作者。

本章是Part I 的"统计 vs AI"哲学收尾。与 Ch 1-8 的"工程视角"不同，本章是统计学家对 AI 的批判性思考——讲"传统统计 vs ML 两种范式各自的强项，以及为什么两者都不能丢"。读者应已熟悉 Ch 1-8 全部内容。

内容概述

本章提出一个核心问题："数据丰富时代，AI 是否会取代传统统计学？" 核心论点：(1) 数据范式正在转移——从"小样本、专门采集"到"大数据、相关数据"——驱动分析范式从"估计"转向"预测"；(2) 统计学与 ML 是两种文化（Breiman 2001 的经典论断）——统计学用概率分布解释数据、估计因果；ML 用大量数据训练算法、关注预测——两者不必互斥；(3) AI/ML 的关键陷阱——不平衡设计的 PPV 灾难、多重比较、p-hacking、未识别混杂——这些"统计学家早就知道但 AI 社区常忽视"的问题；(4) Vollmer 2020 BMJ 的 20 个关键问题——评估 AI 研究质量的 6 大类问题（研究动机、数据、统计方法、可复现性、影响评估、实施）；(5) Willie Sutton 原则——"用所有可用的工具，因为信息就在那里"。本章是整个 Part I 的批判性总结，也预告 Part II 的临床应用。

核心方程与概念

0. 几个量化表达

PPV 公式（Bayes 定理）： $$\mathrm{PPV} = \frac{\mathrm{Se} \cdot P}{\mathrm{Se} \cdot P + (1 - \mathrm{Sp}) \cdot (1 - P)}$$ 其中 $\mathrm{Se}$ = sensitivity（灵敏度）、$\mathrm{Sp}$ = specificity（特异度）、$P$ = 患病率（prevalence）。
PPV 在 99% 灵敏 + 95% 特异度下的演变（固定 100 个真阳性）：
患病率 50%（100/200）：PPV = 99/104 ≈ 95.2%
患病率 1/10（100/1000）：PPV = 99/149 ≈ 66.4%
患病率 1/1000（100/100,000）：PPV = 99/5099 ≈ 1.9%
关键等式：
$\mathrm{Se} + \mathrm{FNR} = 1$（在患者中）
$\mathrm{Sp} + \mathrm{FPR} = 1$（在非患者中）
$\mathrm{Se}, \mathrm{Sp}$ 不可直接相加，因为它们是不同分母的比率。
统计与 ML 的对照表（本章核心对比）：

维度	传统统计学	机器学习
目标	估计参数、推断因果	优化预测
数据规模	小样本（$n$ 数十-数百）	大数据（$n$ 数万-数百万）
维度	低维（$p \ll n$）	高维（$p \gg n$）
模型	概率分布假设（parametric）	灵活函数逼近（nonparametric）
输出	置信区间、p 值	预测概率、AUC
可解释性	高（系数、OR）	低（黑盒）
因果 vs 关联	因果为主	关联为主

1. Breiman 2001 的"两种文化"

传统统计文化："数据来自某个概率模型 $P(X, Y \mid \theta)$，目标是估计 $\theta$ 并推断因果"——经典 Neyman-Pearson 假设检验。
ML 文化："数据就是数据，目标是找到一个 $f(X) \to Y$ 的函数使预测误差最小"——不在乎 $f$ 是否有概率解释。
Breiman 的警告：ML 文化的兴起不是统计学的终结——而是统计学需要进化，与 ML 结合。

2. 数据范式的转移

传统范式："我想研究 X，所以专门采集 X 的数据"——小样本、专门设计。
新兴范式："我有大量相关数据（EHR、生物样本库、社交媒体），从里面找 X"——大数据、不专门设计。
问题：当数据是"available-but-imperfect"时，何时优于"focused but small"？

3. 估计 vs 预测的范式转移

传统统计学主攻"估计"$E[Y \mid X, T]$ 在不同处理 $T$ 下的差异——因果问题。
新兴数据科学主攻"预测"$E[Y \mid X]$——预测问题。
预测不等于因果——"秋季 NBA 搜索 + 流感搜索都增加"——同时增长不等于因果，但作为预测变量是有用的。
关键洞见：临床 AI 通常是预测（"这患者 5 年内会不会心梗"）而非因果（"他汀是否降低他心梗风险"）。两者需要不同的方法。

4. 评估诊断测试的 4 个量

Sensitivity (Se, 灵敏度) = TP / (TP + FN) = 患病人群中检测阳性的比例。
Specificity (Sp, 特异度) = TN / (TN + FP) = 健康人群中检测阴性的比例。
PPV (Positive Predictive Value, 阳性预测值) = TP / (TP + FP) = 检测阳性中真患病的比例。
NPV (Negative Predictive Value, 阴性预测值) = TN / (TN + FN) = 检测阴性中真健康的比例。
关键关系（Bayes 定理）： $$\mathrm{PPV} = \frac{\mathrm{Se} \cdot P}{\mathrm{Se} \cdot P + (1 - \mathrm{Sp}) \cdot (1 - P)}$$
核心陷阱：Se/Sp 是模型特性（不随患病率变化），PPV/NPV 是临床特性（强烈依赖患病率）。AUC 高但 PPV 低的"假阳性灾难"是 ML 在低患病率场景的典型失败。

5. 不平衡设计（Unbalanced Design）—— ML 社区的"再发现"

ML 社区经常重新发现"PPV 在低患病率下崩溃"——然后尝试"调整算法权重"——而不是接受"这是诊断系统的内在属性"。
多层诊断（multi-layer diagnosis）类似"筛查 → 确诊"的临床流程——可控制 PPV。
深度学习的"层层提炼"是这一思想的工程化体现。

6. Vollmer 2020 BMJ 的 20 个关键问题（6 大类）

研究起源：什么信息/假设驱动了研究？
研究设计：数据如何与研究问题相关？患者如何参与？
统计方法：什么分析方法得出了研究结论？
可复现性：数据是否可被其他研究者获取？以什么形式？
影响评估：研究结果如何泛化到总体？
实施评估：AI 模型在实际患者护理中是否具有成本效益？

7. 多重比较与 p-hacking

问题：测试 100 个特征 × 100 个结局 = 10,000 次统计检验。在 5% 显著水平下，即使所有假设都无效，也会有 ~500 个"显著"结果。
p-hacking：选择性报告"显著"结果 → 发表偏倚。
修正方法：Bonferroni 校正、Benjamini-Hochberg FDR 控制。
预注册（pre-registration）：在收集数据前注册假设和分析计划——是应对 p-hacking 的最有效手段。
Head 2015 PLoS Biol："p-hacking 在科学中的程度和后果"——揭示问题严重性。

关键结论

统计学与 ML 是两种文化（Breiman 2001），不是替代关系。
数据范式正在转移——从"小样本专门设计"到"大数据相关发现"——这是 AI 兴起的真正驱动力。
AI 系统的临床效用必须用PPV/NPV评估，而不是 AUC——AUC 高但 PPV 低是低患病率场景的典型陷阱。
Vollmer 2020 的 20 个关键问题是评估 AI 研究的标准化清单——任何严肃的 AI 论文都应回答其中至少一部分。
可复现性危机——AI 论文的可复现率远低于其他领域（Vollmer 2020 综述指出很多 ML 论文无法独立复现）。
传统统计在 AI 中仍有不可替代的角色——样本量估计、p 值、置信区间、可复现性评估都是统计学家的强项。
"Willie Sutton 原则"——"用所有可用的工具，因为信息就在那里"——反对单一阵营的极端立场。
p-hacking 普遍存在——必须在 AI 研究中预注册假设和分析计划。
因果 ≠ 关联——临床 AI 通常做预测（关联），但临床决策需要因果——这要求 AI 研究者具备基本的因果推断素养（Ch 22 部分涉及）。

挑战和开放性问题

PPV 灾难的真实代价——很多 AI 论文报道 AUC 0.95，但没在真实临床场景测过 PPV——实际 PPV 可能 < 20%。FDA 批准的 AI 工具中有几个真实改善了 PPV？数据不清。
预注册的实践障碍——AI 项目经常"数据驱动的探索"（先看数据再定假设）——预注册难以执行。需要在"探索性 AI"和"验证性 AI"之间找平衡。
Vollmer 20 问题的"自填答案"风险——研究者可以"看起来回答了"20 个问题但没有实质答案——需要第三方审核。
可复现性的跨学科障碍——统计学家的可复现标准（公开数据 + 代码）vs AI 工程师的实践（GitHub gist + Colab notebook）——后者质量参差不齐。
AI 的"领域知识整合"挑战——传统统计学长期强调"领域知识 + 模型"（如 Cox 比例风险模型基于医学知识），AI 端到端模型通常丢弃领域知识——这是预测 vs 因果之争的核心。
"统计显著性" vs "临床显著性"——大样本 + 小效应 → 统计学显著但临床无用。AI 模型AUC 0.55（微弱优于随机）但 p < 0.001也是发表陷阱。
多重比较的 AI 版本——在深度学习中，有 1 亿参数的模型等同于"做了 1 亿次检验"——但没有标准的多重比较校正。预训练 + fine-tuning 是部分缓解但不是根本解决。
"AI 偏倚"的统计学诊断工具——DEMOGRAPHICS PARITY、EQUALIZED ODDS、CALIBRATION 等公平性指标尚未标准化。
AI 模型的"未指定混杂"——AI 模型能学到"扫描仪型号 → 诊断"的伪相关，但因果图（causal DAG）和工具变量等传统因果推断方法在 AI 中应用仍少。
"Breiman 2001 之后 20 年两种文化是否融合"——DAGNet、SDE-Net、贝叶斯深度学习等在尝试——但 2022 年仍未成熟。

个人反思与批判性分析

本章作为"Part I 的统计哲学收尾"是全书最独特、最有思想的章节——作者是真正有统计学功底的 PhD，给出了 AI 时代罕见的统计学家声音。

优势： - Breiman 2001 "两种文化" 论断的精准引用——是 AI/统计之争的经典起点。 - PPV 灾难的数值演示——99% 灵敏 + 95% 特异度，患病率 1/1000 时 PPV 跌到 1.9%——是 AI 论文读者必须知道的核心数字。 - Se/Sp 与 PPV/NPV 的混淆明确指出——Se + Sp = 1 是错的（分母不同）。 - Vollmer 2020 BMJ 20 关键问题是评估 AI 研究的"瑞士军刀"。 - Willie Sutton 原则——"用所有工具"——给全书一个开放、包容的总结立场。 - 数据范式转移的描述简洁有力。 - p-hacking 警告有具体论文支撑（Head 2015 PLoS Biol）。

批判与补足： 1. 太短的"深度学习"段落——只 1 段说"多层 ML = deep learning"——这是对深度学习的极度过简。Ch 6 用了 19 KB 写深度学习，Ch 9 这段不到 200 字符。统计学家视角应给深度学习的统计学解释（如 VC 维、bias-variance trade-off、double descent）。 2. 缺"贝叶斯统计学"在 AI 中的角色——现代 ML（特别是医学影像）大量使用贝叶斯方法（贝叶斯神经网络、贝叶斯优化、Hierarchical Bayesian models）——但本章作为"统计学 + AI"章节完全没提贝叶斯视角。 3. 缺"因果推断"——Pearl 2009 因果图（DAG）、do-calculus、反事实推断在医学 AI 中越来越重要（Ch 22 涉及）。本章应至少预告。 4. 缺"AI 模型可解释性的统计学框架"——SHAP、LIME 等可解释性方法本质上在做统计属性分解——可与统计学家的"敏感性分析"对话。 5. "20 个关键问题"完整列表缺失——只给了 6 大类标题，没具体展开。这本来是本章最有价值的内容，应给完整列表。 6. PPV 数字示例缺少"反例"——可以举一个"AI 真的改善了 PPV"的正面案例（如自动筛查的某些场景），让读者知道不是所有 AI 都失败。 7. "Breiman 2001 之后 20 年的实证评估"缺失——两种文化 20 年后是否真的融合？有哪些具体技术（如 Gaussian Process、Bayesian DL）是融合的产物？ 8. 缺"AI 论文 vs 统计论文的可复现率对比"——Baker 2016 Nature 调查显示 70% 研究者经历过"复现失败"——AI 子领域的数据应给出。 9. "p-hacking" 的统计补救工具不足——只说了"预注册"，但预注册在 AI 中难以执行——需要"注册 AI 项目的中间方案"（如 Open Science Framework 实践）。 10. "AI 时代统计学家的角色转变"未充分讨论——统计学家需要懂 ML、ML 工程师需要懂统计——但协作模式、教育体系、职业发展 都没提。

给作者的问题： - PPV 灾难的最坏案例 在医学影像 AI 中是哪一项？已有公开案例吗？ - Vollmer 2020 的 20 个关键问题 中，哪一个在 AI 论文中最常被忽略？ - 贝叶斯深度学习（如 Bayesian Neural Network, BNN）在医学影像中的实际应用价值——你见过的真实临床部署案例？ - 统计学家的 "AI 时代转型"——你认识的统计学家同事有多少成功转型到 ML/AI 领域？多少保持"传统统计"？哪种更"有用"？ - Pearl 因果图 vs ML 端到端——你的判断：在医学 AI 临床决策中，哪种路径更可能成功？

值得复现的实践： - 模拟一个 PPV 灾难：在 99% 灵敏 + 95% 特异度的"AI 模型"上，画出 PPV vs 患病率的曲线（患病率 50% → 0.01%）。 - 跑一个 100 次假设检验的模拟实验（在 0 效应下），验证 5 次"显著"结果的概率。 - 用 SHAP 或 LIME 解释一个训练好的胸部 X 线分类模型，比较"统计分解" vs "梯度解释"两种方法。 - 评估一个 AI 论文的"可复现性"——按 Vollmer 20 问题逐一打分。 - 用 Bonferroni、Benjamini-Hochberg 校正一组放射组学多特征检验，比较校正前后的"显著"特征数。

重要参考文献

[X1] Breiman L. Statistical modeling: the two cultures. Stat Sci. 2001;16(3):199–231. DOI: 10.1214/ss/1009213726. (经典"两种文化"论断) [X2] Donoho D. 50 years of data science. J Comput Graph Stat. 2017;26(4):745–66. DOI: 10.1080/10618600.2017.1384734. [X3] Vollmer S, Mateen BA, Bohner G, et al. Machine learning and artificial intelligence research for patient benefit: 20 critical questions on transparency, replicability, ethics, and effectiveness. Br Med J. 2020;368:169297. DOI: 10.1136/bmj.l6927. (20 个关键问题) [X4] Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD. The extent and consequences of p-hacking in science. PLoS Biol. 2015;13(3):e1002106. DOI: 10.1371/journal.pbio.1002106. [X5] Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019;567:305–7. DOI: 10.1038/d41586-019-00857-9. (统计学家反对"统计显著性" 宣言) [X6] Li JJ, Tong X. Statistical hypothesis testing versus machine learning binary classification: distinctions and guidelines. Patterns. 2020;1:100115. (两种范式的当代对比) [X7] Baraniuk R, Donoho D, Gavish M. The science of deep learning. Proc Natl Acad Sci USA. 2020;117:30029–32. DOI: 10.1073/pnas.2020596117. [X8] Waller LA, Miller GW. More than manuscripts: reproducibility, rigor, and research productivity in the big data era. Toxicol Sci. 2016;149(2):275–6. DOI: 10.1093/toxsci/kfv330. [X9] Baker M. 1,500 scientists lift the lid on reproducibility. Nature. 2016;533:452–4. DOI: 10.1038/533452a. (70% 复现失败率调查) [X10] Pearl J. Causality: models, reasoning, and inference. 2nd ed. Cambridge University Press; 2009. (因果推断圣经，医学 AI 必读) [X11] Wilkinson MD, et al. The FAIR guiding principles for scientific data management and stewardship. Sci Data. 2016;3:160018. DOI: 10.1038/sdata.2016.18. [X12] Burkov A. The hundred-page machine learning book. Andriy Burkov; 2019. (ML 通俗入门推荐)

第9章 生物统计学与人工智能（Biostatistics and Artificial Intelligence）

作者