第8章 生物样本库与人工智能(Biobanks and Artificial Intelligence)
作者
- Musa Abdulkareem, MSc, PhD(通讯作者)— NIHR Barts Biomedical Research Centre, William Harvey Research Institute, Queen Mary University of London; Barts Heart Centre.
- Nay Aung, PhD — 同单位。
- Steffen E. Petersen, MSc, MPH, MD, DPhil — Barts Heart Centre + NIHR Barts + The Alan Turing Institute, London. 英国最大心脏影像 AI 研究者之一,是 UK Biobank 心脏影像子研究的核心人物。
本章是Part I 的"大数据 + AI"章节——把 Ch 4 的"数据准备"和 Ch 5 的"数据存储"扩展到大规模生物样本库(biobank)这一 AI 时代的关键数据来源。作者团队是 UK Biobank 心脏影像子研究的深度参与者,提供真实项目视角。读者应已知 Ch 4-5 内容。
内容概述
本章给出生物样本库与 AI 结合的"全景"。核心论点:(1) 生物样本库是 AI 时代最关键的数据基础设施——大规模(10-50 万参与者)、多维度(影像、EHR、基因、生活方式、问卷)、长期纵向链接的"统一数据池"是 ML 算法最稀缺的资源;(2) AI 与生物样本库是天然互补——前者处理高维、非结构化数据的能力正好填补后者的"传统统计方法不足";(3) UK Biobank 是范例——50 万参与者、链接 NHS EHR、含 10 万+ 多器官 MRI、含死亡/癌症注册、目标 2030 完成全部成像,是世界上数据最完整的生物样本库;(4) AI 应用已覆盖:① 心脏影像自动分割(CMR 多视图分割达到人类专家水平,VGG-16 架构在 4875 例上 LV Dice 0.94);② 心血管风险预测(MESA 735 预测因子 + RF, 12 年全因死亡/心血管事件预测);③ 疾病表型聚类(无监督学习发现 HFpEF 子型);④ 可穿戴设备数据集成(Apple Watch/移动健康数据加入生物样本库);(5) 新数据源(可穿戴、IoT、社交媒体)正扩展生物样本库的定义。本章是 Ch 30(心血管风险分层)、Ch 36(先天性心脏病)、Ch 50(卫生经济学)的数据基础。
核心方程与概念
0. 几个量化表达
- UK Biobank 规模:500,000 参与者,40-69 岁(平均 56.5 岁,54.4% 女性),22 个英国中心招募 2006-2010,目标 2023 完成 100,000 例多器官 MRI。
- 预期事件数:到 2022 年约 1800 例中风、8000 例糖尿病;到 2027 年 4000 例中风、14000 例糖尿病(基于招募时的基线风险)。
- VGG-16 在 UK Biobank CMR 上的分割精度(4875 例训练,600 例测试):
- 短轴 LV 腔(endocardium):Dice = 0.94
- 短轴 LV 心肌(epicardium):Dice = 0.88
- 短轴 RV 腔:Dice = 0.90
- 长轴 RA 腔(四腔心):Dice = 0.96
- 长轴 LA 腔(二腔心):Dice = 0.93
- 临床测量误差(自动 vs 人工):LVEDV 6.1 mL, LVESV 5.3 mL, RVEDV 8.5 mL, RVESV 7.2 mL, LVM 6.9 g。
- MAUDE 等 3D Active Shape Model(SPASM)在 20,000 例 UK Biobank CMR 上:短轴 LV Dice 0.93、心肌 0.87、RV 0.87——略低于 2D CNN,但可处理 3D。
1. 生物样本库定义
- 1996 年首现于科学文献(Loft 1996)。
- 公认定义(Yuille 2008 等):"a facility for the collection, preservation, storage and supply of biological samples and associated data, which follows standardised operating procedures and provides material for scientific and clinical use"。
- 关键特征:
- 标准化操作程序(SOP)。
- 链接样本 + 临床数据 + 影像 + EHR + 生活方式。
- 长期纵向随访。
- 公共/可控访问机制。
2. 几大代表性生物样本库
| 名称 | 规模 | 特点 |
|---|---|---|
| UK Biobank | 500,000 | 多器官 MRI、NHS EHR 链接 |
| Maastricht Study | 10,000 | 荷兰深度表型 |
| German National Cohort (GNC) | 30,000 | 德国全国 |
| Rhineland Study | 30,000 | 老年重点 |
| BioVU (Vanderbilt) | 1,400,000 | DNA 链接 EHR(最大) |
| Kaiser RPGEH | 200,000 | 加州多样化人群 |
| China Kadoorie Biobank | 500,000 | 中国 5 城市 + 5 农村 |
| India Chennai | 500,000 | 印度城市 |
| MESA (Multi-Ethnic Study of Atherosclerosis) | 6,814 | 多种族心血管 |
3. AI 在生物样本库中的 4 大应用域
- 影像自动分割(与 Ch 6 衔接):U-Net、VGG-16、SPASM 等在 UK Biobank CMR 上达到人类专家水平。
- 风险与结局预测:MESA 735 变量 + 随机森林(Ambale-Venkatesh)→ 12 年 CVD/全因死亡预测。
- 疾病表型聚类:无监督学习发现亚型(如 HFpEF 子型,Shah 2015)。
- 新数据源集成:可穿戴设备(Apple Watch, Fitbit)、移动健康 App、IoT、社交媒体。
4. AI vs 传统统计的适用性差异
- 传统统计的强项:小样本、可解释的因果推断、p 值置信区间。
- AI 的强项:高维数据(\(p \gg n\))、自动特征学习、非线性关系、个体化预测。
- 生物样本库高维特性:CMR 影像 = 100,000+ 体素 + 数千临床变量 + 基因数据 → 传统回归在 \(p \gg n\) 时完全失效,AI 才是出路。
5. 类别不平衡处理(§8 详细讨论)
- 不平衡学习的经典方法(数据集生物样本库常见健康/疾病比 99:1):
- 欠采样(undersampling):Kubat 1997 单边选择、聚类中心选择。
- 过采样(oversampling):SMOTE(合成少数类过采样)。
- 代价敏感学习:错误分类少数类代价更高。
- 集成方法:BalancedBagging、EasyEnsemble。
6. 可穿戴数据(IoT)与 AI
- mHealth 应用:Apple Heart Study 用 Apple Watch 检测房颤(347,989 参与者,Perez 2019)。
- 健康可穿戴市场:智能手表、连续血糖监测仪、智能鞋垫、心电贴片。
- 数据特点:高频、噪声大、长时序——AI 处理需要专门的时序模型(LSTM, Transformer)。
7. 质量控制(QC)的 AI 自动化
- UK Biobank 心脏影像 QC:
- Tarroni 2020:大规模 QC pipeline → 标记低质量影像。
- Robinson 2019:自动 QC 用于分割任务,识别"分割失败"案例。
关键结论
- 生物样本库是 AI 时代的关键数据基础设施——其规模、维度、纵向性是 ML 算法最稀缺资源。
- AI 与生物样本库天然互补——AI 处理高维数据、生物样本库提供数据源;传统统计在 \(p \gg n\) 场景中完全失效。
- UK Biobank 是世界级范例——50 万参与者 + 多器官 MRI + NHS EHR 链接 + 死亡/癌症注册是独一无二的资产。
- AI 在 UK Biobank 上的心脏影像分割已达到人类专家水平——VGG-16/2D CNN 在 4875 例训练后 LV Dice 0.94,临床误差(6.1 mL LVEDV)可接受。
- 风险预测需要多变量集成——MESA 用 735 变量 + RF,12 年预测优于传统 ACC/AHA 评分(具体数字未在本章给出,但有对比研究)。
- 可穿戴数据是新兴数据源——Apple Heart Study 等大型真实世界证据展示了 AI + 可穿戴的潜力。
- 质量控制的 AI 自动化至关重要——大规模生物样本库需要 ML 辅助 QC。
- 类别不平衡是生物样本库 AI 的常态——99:1 的健康/疾病比使传统 ML 失效,需要专门技术。
- AI 带来新数据源(可穿戴、IoT、社交媒体)正扩展生物样本库的定义。
挑战和开放性问题
- 数据治理与隐私——链接 EHR 后重新识别风险陡增(即使去标识,链接多源数据可重新识别个人)。GDPR 的"被遗忘权"与生物样本库"永久存储"冲突。
- 参与者多样性偏差——UK Biobank 是 40-69 岁英国白人为主(94% 白人),外推到亚洲/非洲人群可能不准确。China Kadoorie、India Chennai 等是补救但规模小。
- 同意书(informed consent)的"未来使用"边界——参与者在 2006-2010 同意时不知道 AI/ML 分析会做什么。
- AI 算法的"黑箱"与生物样本库研究的"开放性"冲突——研究者需要复现性,但商业 AI 模型可能闭源。
- "海量低质量数据" vs "少量高质量数据"——生物样本库追求规模,但图像质量、设备异质性、标注缺失等问题随规模放大。
- AI 模型的"内部"训练集 vs "外部"测试集——UK Biobank 训练的所有 AI 模型在 2022 年几乎所有论文只在 UK Biobank 测试——这本身有分布偏移隐患。
- 跨生物样本库的"元分析"困难——不同生物样本库的数据 schema、采集协议、标注标准不一致,元学习(meta-learning)/ 迁移学习是出路但尚未成熟。
- 类别不平衡的 99:1 极端情况——即使有 SMOTE/欠采样,AUC 0.99 仍可能只是因为模型总是预测多数类——必须用 AUPRC、recall、precision 综合评估。
- "AI 误判"的法律责任——生物样本库研究的 AI 工具被用于临床决策时,谁负责?生物样本库、AI 开发者、医院、医生?Ch 49 法规专题。
- 可穿戴数据的"同意疲劳"——参与者每天提供数据 vs 实际研究使用率——可能引发"数据饱和"和参与者退出。
个人反思与批判性分析
本章作为"生物样本库 + AI"全景写得结构清晰、案例丰富,但与 Ch 7 一样有一些值得反思的"过度乐观"和"行业偏向":
优势: - UK Biobank 作为范例贯穿全章——是"教科书级"的真实世界案例。 - 4 大应用域(分割/预测/聚类/可穿戴)划分清晰。 - 9 大代表性生物样本库的表格——给读者全球视野。 - VGG-16 在 4875 例 UK Biobank CMR 上的具体 Dice 数字——可作为读者复现参考。 - 类别不平衡 4 种处理方法的简要介绍——是工程必备知识。 - 引用充分(149 篇!),覆盖最新文献。
批判与补足: 1. 过度聚焦 UK Biobank——9 大生物样本库中 UK Biobank 占 ~10 页内容,其他 8 个只占一段。作为"非英国"读者,更需要知道本地生物样本库如何用。 2. "AI 让传统统计在生物样本库失效"过于绝对——实际上LASSO、ridge、elastic net等正则化方法在 \(p \gg n\) 时仍能工作。真正失效的是无正则化的 OLS——本章应区分这两者。 3. 缺 UK Biobank 的"局限性"讨论——UK Biobank 是"健康偏倚志愿者"(healthy volunteer bias)——参与者比一般人群更健康、更富裕、更白。AI 模型在 UK Biobank 上训练后外推到一般人群性能如何?没有公开数据。 4. 可穿戴数据的"伪精度"问题未提——Apple Watch 检测房颤的"灵敏度"指标多基于自选择人群(自愿下载 App 的人)。真实世界阳性预测值远低于厂商报告。 5. 类别不平衡处理对生物样本库健康/疾病比 99:1 仍不足——SMOTE 在极不平衡时会生成"伪少数类样本"导致过拟合。需要 focal loss + class-balanced loss + threshold calibration 组合。 6. 缺"AI 公平性"——UK Biobank 94% 白人,训练的 AI 模型在亚裔/黑人患者上可能系统性偏差。算法公平性(fairness) 应是生物样本库 AI 的核心议题。 7. 缺"生物样本库 vs 医院 EHR" 的成本-效益对比——UK Biobank 1.4 亿英镑投入 vs 医院 EHR "免费"——什么时候值得建生物样本库? 8. AI 模型版本管理与可复现性——生物样本库研究发表时通常只报告 "we used ResNet50",但没有模型权重、训练数据 ID、随机种子——可复现性危机比"模型架构"严重。 9. 缺"AI 在生物样本库上的真正临床转化案例"——多数研究是"在 UK Biobank 上开发算法",真正进入临床流程的极少——这是 AI 落地的通病。 10. 跨生物样本库联邦学习的现实——Shi 2019 (Ch 5) 提到的 Personal Health Train 是"概念验证"水平,生产级联邦学习跨生物样本库仍不存在。
给作者的问题: - UK Biobank 上训练的 AI 模型在中国 Kadoorie Biobank / India Chennai Biobank 上直接迁移性能如何?跨种族泛化实际差距有多大? - 类别不平衡 99:1 的极端情况,SMOTE 是不是过时了?focal loss + class-balanced sampling 是不是更优? - AI 在生物样本库的"开放性问题"——研究者在 2010 同意时不知道 AI,会否在 2030 出现"重新同意"危机? - 生物样本库的 AI 研究真正进入临床决策的案例有哪几个?FDA/NICE 等监管是否认可"基于生物样本库训练的 AI"作为临床证据? - 可穿戴数据的"伪精度"问题——Apple Heart Study 报道的房颤检测性能在低发病率人群中实际表现如何?
值得复现的实践: - 用 UK Biobank 公开数据(在 https://www.ukbiobank.ac.uk/ 申请)训练一个简单的 CMR LV 分割 U-Net。 - 实现并比较 SMOTE vs class-balanced loss vs focal loss 在 99:1 不平衡心衰预测上的 AUPRC。 - 用 Apple Heart Study 公开数据(如果有)评估 Apple Watch 房颤检测在不同人群上的实际性能。 - 写一个简单的 federated learning 模拟,连接 2 个虚拟生物样本库(UK Biobank + China Kadoorie)做迁移学习。
重要参考文献
[X1] Petersen SE, et al. UK Biobank's cardiovascular magnetic resonance protocol. J Cardiovasc Magn Reson. 2016;18:8. (UK Biobank CMR 协议) [X2] Sudlow C, Gallacher J, Allen N, et al. UK Biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. PLoS Med. 2015;12(3):e1001779. DOI: 10.1371/journal.pmed.1001779. [X3] Littlejohns TJ, Sudlow C, Allen NE, Collins R. UK Biobank: opportunities for cardiovascular research. Eur Heart J. 2019;40(14):1158–66. DOI: 10.1093/eurheartj/ehz254. [X4] Bai W, Sinclair M, Tarroni G, et al. Automated cardiovascular magnetic resonance image analysis with fully convolutional networks. J Cardiovasc Magn Reson. 2018;20:65. DOI: 10.1186/s12968-018-0471-x. (VGG-16 在 4875 例 UK Biobank CMR 上的分割) [X5] Tarroni G, Bai W, Oktay O, et al. Large-scale quality control of cardiac imaging in population studies: application to UK Biobank. Sci Rep. 2020;10:1–11. DOI: 10.1038/s41598-020-58250-3. [X6] Robinson R, Valindria VV, Bai W, et al. Automated quality control in image segmentation: application to the UK Biobank cardiovascular magnetic resonance imaging study. J Cardiovasc Magn Reson. 2019;21:18. DOI: 10.1186/s12968-019-0528-2. [X7] Ambale-Venkatesh B, Yang X, Wu CO, et al. Cardiovascular event prediction by machine learning: the multi-ethnic study of atherosclerosis. Circ Res. 2017;121(9):1092–101. DOI: 10.1161/CIRCRESAHA.117.311312. (MESA 735 变量 + RF, 12 年预测) [X8] Perez MV, Mahaffey KW, Hedlin H, et al. Large-scale assessment of a Smartwatch to identify atrial fibrillation. N Engl J Med. 2019;381(20):1909–17. DOI: 10.1056/NEJMoa1901183. (Apple Heart Study) [X9] He J, Baxter SL, Xu J, et al. The practical implementation of artificial intelligence technologies in medicine. Nat Med. 2019;25(1):30–6. DOI: 10.1038/s41591-018-0310-z. [X10] Yuille M, van Ommen GJ, Bréchot C, et al. Biobanking for Europe. Brief Bioinform. 2008;9(1):14–24. (生物样本库定义) [X11] Loft S, Poulsen HE. Cancer risk and oxidative DNA damage in man. J Intern Med. 1996;239(5):377–89. DOI: 10.1046/j.1365-2796.1996.445782000.x. (biobank 词源 1996) [X12] Chen JJ, Tsai CA, Young JF, Kodell RL. Classification ensembles for unbalanced class sizes in predictive toxicology. SAR QSAR Environ Res. 2005;16(6):517–29. (不平衡集成方法)