跳转至

第5章 数据存储、云使用与人工智能流水线(Data Storage, Cloud Usage and Artificial Intelligence Pipeline)

作者

  • Peter M. A. van Ooijen, MSc, PhD, CPHIMS(通讯作者)— University Medical Center Groningen, 荷兰。本书最常出现的方法学贡献者(Ch 3, 5, 43, 45)。
  • Erfan Darzi, MSc — 同单位。
  • Andre Dekker, MSc, PhD — MAASTRO Clinic, GROW School, Maastricht UMC. 放射肿瘤学 + 医学数据科学。

本章的角色是Part I 的"IT 基础设施"章节——把 Ch 4 的"数据准备"延伸到"数据存哪里、算力怎么部署、模型怎么部署、怎么跨机构协作"。核心是NIST 云模型 + AI 流水线 + 联邦学习三大块。读者需有 Ch 3-4 基础,并理解"分布式系统"基本概念。

内容概述

本章给出 AI 临床落地的"IT 基础设施全貌"。核心论点:(1) 影像生物样本库(imaging biobank)是 AI 数据汇集的最佳载体——ESR 2015 立场文件定义其"与生物样本库链接的共享影像数据集合",关键要求是FAIR(Findable, Accessible, Interoperable, Reusable)数据原则;(2) NIST 云模型是部署 AI 的事实标准——5 大特征(按需自服务、宽带访问、资源池化、快速弹性、计量服务)、3 类服务(SaaS/PaaS/IaaS)、4 种部署(私有/社区/公共/混合);(3) AI 流水线分开发(数据→训练→验证)与部署(接收数据→输出预测)两段,二者对网络延迟GPU/CPU 配比模型交换格式(如 ONNX)有不同需求;(4) 数据并行 vs 模型并行 vs 管道并行是分布式训练的三种范式,配合同步/异步参数更新策略,可处理超大规模模型;(5) 联邦学习(FL)是"数据不出院"的关键架构——但梯度反演攻击、模型反演攻击、成员推断攻击仍是真实威胁,FL 不等于绝对隐私。本章是 Ch 6(如何构建算法)、Ch 8(生物样本库)、Ch 49(法规)的衔接点。

核心方程与概念

0. 几个量化表达

  • 联邦学习数据量(Mehrizi 2021 调查):在 269 个 AI 应用中,32% 纯云、46% 云/本地二选一、22% 仅本地——云部署已成主流。
  • PACS 安全漏洞量级:Health IT Security 2019 报道约 11.9 亿张医学图像通过云连接 PACS 可被未授权访问。
  • 数据并行同步开销:在 \(N\) 个 worker 上做同步 SGD,\(T_{\text{total}} = N \cdot T_{\text{compute}} + T_{\text{sync}}\),其中 \(T_{\text{sync}}\) 与网络带宽成反比、与参数规模成正比。

1. 影像生物样本库(Imaging Biobank)—— ESR 2015 定义

  • 定义:"shared databases of imaging biomarkers, linked to biorepositories"(欧洲放射学会 ESR 立场文件)。
  • 4 项必备要求(图 5.1 的 4 层架构):
  • 集中 + 联邦混合架构——能跨多个数据源查询、分析、检索。
  • 安全、基于权限的访问——RBAC(基于角色的访问控制)+ 审计日志。
  • 完整的去标识(含影像和元数据)。
  • 标准化的信息模型与术语(DICOM + HL7 + IHE workflow + FHIR + SNOMED CT)。
  • 4 类存储来源(§5 列举):
  • 临床研究/试验数据。
  • 疾病特异数据(如乳腺癌、肺癌、结肠癌筛查)。
  • 普通人群数据(如 UK Biobank、NLST)。
  • 纵向长期数据(如 Rotterdam Study)。
  • QIN 4 层架构(图 5.1):Clinical Systems(顶层) → Research Methods(AI 算法、统计验证)→ Data Storage(影像库、元数据、临床数据)→ Shared Semantics(本体、通用数据元素、eCRF)。

2. FAIR 数据原则(Wilkinson 2016)

  • Findable(可发现)、Accessible(可访问)、Interoperable(互操作)、Reusable(可重用)。
  • 13 条具体原则(如 F1: 数据有唯一持久标识符;A1: 数据可通过标准化协议检索;I1: 使用正式可访问的通用语言;R1: 有丰富元数据)。
  • 核心思想:数据共享不是"上传到 Dropbox",而是"用标准化的方式让其他研究者能找到、读懂、合并、再使用"。

3. NIST 云计算模型(图 5.2)

  • 5 大特征(Essential Characteristics)
  • On-demand self-service(按需自服务)——用户自助开通资源,无需人工。
  • Broad network access(宽带访问)——通过标准协议在各种终端(手机、平板、笔记本)访问。
  • Resource pooling(资源池化)——多租户共享物理资源,用户不知晓具体位置(但可指定国家/地区)。
  • Rapid elasticity(快速弹性)——按需自动扩缩容。
  • Measured service(计量服务)——按使用量计费(存储、CPU、GPU、内存、带宽)。
  • 3 类服务模型(Service Models)
  • SaaS(Software as a Service)——用户只管用应用(如 Gmail、PACS 软件在线版),底层基础设施全部由云商管理。
  • PaaS(Platform as a Service)——云商提供平台(OS、runtime、middleware、dev tools),用户控制应用和数据。
  • IaaS(Infrastructure as a Service)——云商提供裸机/VM/存储/网络,用户控制 OS 及以上所有。
  • 4 种部署模型(Deployment Models)
  • Private cloud(私有云)——单一组织独享,最封闭、最安全。
  • Community cloud(社区云)——多组织共享(如一组医院)。
  • Public cloud(公共云)——对外开放(AWS、Azure、GCP)。
  • Hybrid cloud(混合云)——私有 + 公共混合,跨环境交换数据/应用。

4. AI 流水线的两段(图 5.3-5.5)

  • 开发流水线:数据收集 → 数据标注/清洗 → 训练 → 验证。
  • 部署流水线:接收 (成像) 数据 → 模型推理 → 输出预测(标注/分割/分类)→ 整合到临床数据库。
  • GPU vs CPU 配比
  • GPU 节点:训练阶段,吞吐高、延迟高。适合大批量矩阵乘。
  • CPU 节点:部署阶段,吞吐低、延迟低。适合单样本实时推理。
  • 最优架构:GPU + CPU 混合(按需切换)。

5. 网络通信优化

  • 精度降低(reduced precision):32-bit float → 16-bit → 8-bit → 1-bit 量化(Gupta 2015)。医学影像通常不需要 32-bit 精度。降低精度 = 降低带宽 + 加快计算 + 减小模型
  • 稀疏梯度传输:只传输"显著"梯度更新(绝对值大于阈值),梯度二值化(gradient binarization,Tao 2018 esgd)。
  • 压缩(lossless vs lossy):lossless 完全可恢复但压缩比低(2-3x);lossy 压缩比高(10-100x)但有信息损失。

6. 模型互操作性与 ONNX

  • 问题:PyTorch 训练的模型在 TensorFlow 中无法直接使用。
  • ONNX(Open Neural Network Exchange)——一个开放的模型交换格式,支持 PyTorch、TensorFlow、Caffe、MXNet、CNTK 等框架的互转。

7. 三种分布式并行方式

  • 数据并行(Data Parallelism, 图 5.3):每个 worker 拿到相同的模型副本不同的数据子集;每步迭代后同步参数。优点:实现简单;缺点:通信开销与 worker 数成线性增长,受 straggler 问题(最慢 worker 拖累整体)影响。
  • 模型并行(Model Parallelism, 图 5.4):把模型按层或按子图分配到不同 worker;每个 worker 算模型的一部分。需要频繁的前向/反向通信。
  • 管道并行(Pipeline Parallelism, 图 5.5):模型并行 + 数据并行的混合——把数据切成 mini-batch、模型切成段,每个 worker 处理一段模型 + 一个 mini-batch,形成"装配线"当前大模型训练的标准做法(如 Megatron-LM, PaLM)。
  • 混合并行(Hybrid Parallelism):实际大模型项目(GPT-3, GPT-4)三种并行都用。

8. 参数同步策略

  • 同步训练(synchronous SGD):每 batch 后所有 worker 同步参数。收敛性好有 straggler 问题——最慢的 worker 决定整体速度。
  • 有界同步(bounded synchronous):允许 worker 用稍微陈旧的参数(bounded staleness)——逼近同步性能 + 缓解 straggler
  • 异步训练(asynchronous):每个 worker 独立更新参数——灵活收敛性差(旧参数导致梯度冲突)。
  • 集中 vs 分散架构
  • 集中(Parameter Server, PS):所有 worker 向 PS 汇报梯度,PS 聚合后下发。代表:TensorFlow, GeePS, DistBelief。缺点:PS 单点故障风险。
  • 分散(decentralized):worker 之间直接通信(如 ring topology,Horovod 框架)。优点:无单点故障;缺点:通信复杂。
  • 拓扑结构
  • 完全连接:每个 worker 通信 N-1 个 peer,通信 \(O(N^2)\)
  • 环形(ring):每个 worker 只与左右邻居通信,通信 \(O(N)\)(Horovod 默认)。
  • 树形:层级聚合。

9. 联邦学习(Federated Learning, FL)

  • 核心思想:数据保留在本地医院,模型在各医院间"移动"——每个 worker 用本地数据训练,只把模型参数(或梯度)传回中央服务器进行聚合。
  • 三大优势
  • 解决"医院不愿分享数据"的问题。
  • 解决"GDPR/HIPAA 跨院数据流动困难"的问题。
  • 汇集多中心数据,提升模型泛化能力。
  • 三大风险(§5 专章强调):
  • 梯度反演攻击(gradient inversion attack)——从梯度反推训练数据。
  • 模型反演攻击(model inversion attack)——从模型输出反推训练数据。
  • 成员推断攻击(membership inference attack)——判断某样本是否在训练集中。
  • 额外问题:各医院数据非独立同分布(non-IID)→ 全局最优 ≠ 各医院最优 → 可能降低本地性能。
  • 三种 FL 拓扑
  • 聚合服务器(aggregation server):中央服务器初始化、聚合、广播。
  • 点对点(peer-to-peer):无中心,节点间直接交换参数。
  • 顺序(sequential):模型在一个医院训练,再适配到下一个医院。又分:
    • 域适应(domain adaptation)——仅优化目标域性能,源域性能可能下降。
    • 终身学习(lifelong learning, Karani 2018)——保持对源域的"记忆",通过为不同域学独立的 batch normalization 参数 + 共享卷积滤波器。
  • 常见 FL 平台:Personal Health Train(PHT, Shi 2019)、NVFlare(NVIDIA)、Owkin、FeTS(Federated Tumor Segmentation)。

10. 局部 PACS 的"被动性"问题

  • 大多数 PACS 设计为"医生主动查询",不支持 API 主动调度——这与 AI 流水线需要的"事件驱动"模式不兼容。Alhajeri 2019 调查指出 PACS 功能性限制。
  • 解决:中间件(middleware)将 PACS 包装成 API 可访问的服务;或使用 DICOM Q/R、DICOM STOW 等标准协议。

关键结论

  • 影像生物样本库是 AI 数据汇集的"基础设施"——没有它,再多算法都无用武之地。ESR、NIH QIN 等组织都已发布标准。
  • NIST 云模型是行业事实标准——读懂它的 5+3+4 是评估任何云服务的基础。
  • AI 流水线 ≠ 一个 Python 脚本——它是包含数据管理、训练、部署、监控的完整工程系统。
  • GPU/CPU 配比:训练看 GPU 吞吐,部署看 CPU 延迟。同一台机器跑训练+部署不是最优
  • 分布式并行的三种范式——数据、模型、管道——可独立或组合使用。大模型(如 GPT-4)必须用三者混合
  • ONNX 是模型互操作性的事实标准——能避免"模型被锁死在某个框架"。
  • 联邦学习不是绝对隐私——梯度反演攻击是真实威胁;需要差分隐私(differential privacy)作为额外保护层。
  • PACS 是 AI 落地的最大 IT 瓶颈——不是算法、不是 GPU,而是"传统医疗 IT 系统的僵化"。Ch 49 法规 + 本章 IT 治理是系统性问题。
  • AI 部署的"商业模式"决定 IT 架构——纯云、SaaS、on-premise 各有适用场景(Ch 51 商业化专章展开)。

挑战和开放性问题

  • 跨机构数据共享的经济模型不成熟——医院要数据费、AI 公司要独家——这是行业级问题。
  • FAIR 原则的执行标准不统一——名义上"FAIR-compliant"的数据集很多,但真正可互操作的很少。DICOM + HL7 + FHIR + IHE + SNOMED CT + RadLex 等标准之间的映射仍是工程难题。
  • 梯度反演攻击的防御——添加噪声(差分隐私)会降低模型效用——隐私 vs 性能的 trade-off 难以调优。
  • 联邦学习在 non-IID 数据下的收敛性——理论保证与实际表现有差距;近年 FedProx、SCAFFOLD 等算法在改进,但工业界大规模成功案例仍少。
  • ONNX 的版本兼容性问题——不同框架导出的 ONNX 在某些算子上仍不兼容,特别是新算子(如 Flash Attention)。
  • 云服务的"vendor lock-in"——AWS SageMaker 训练的模型很难直接部署到 Azure;标准化(如 KubeFlow、MLflow)推进中但远未完成。
  • PACS 现代化的工程难度——大型医院有 10+ 年历史的 PACS 系统,更换成本数百万美元。
  • "云 vs 本地" 的医疗数据安全法规——中国《数据安全法》、欧盟 GDPR、美国 HIPAA 三套体系对"医疗数据能否上公有云" 规定不同。Mehrizi 2021 报告中46% 的 AI 应用同时提供云/本地部署选项反映了这套法规的复杂性。
  • AI 模型的"持续学习"与"质量保证"冲突——模型版本更新后,"昨天工作的模型在今天的新数据上可能失败"——这是 FDA 等监管机构的核心担忧。
  • "AI 模型市场"(marketplace)的法律风险——平台上的第三方模型如果出医疗事故,责任在平台还是在开发者?这在 Ch 49 法规中会进一步讨论。

个人反思与批判性分析

本章作为"AI IT 基础设施"写得全面且工程化,是全书最"硬核"的章节之一。值得反思的几点:

优势: - 把"影像生物样本库"作为 IT 基础设施的最高层——强调 FAIR 原则——这是从纯技术角度升级到治理角度的视角。 - NIST 云模型图 5.2 是行业标准总结,任何要做云评估的医生/工程师都能直接受益。 - 三种分布式并行(数据/模型/管道)的图 5.3-5.5 清晰——这是大模型时代的必备知识。 - 联邦学习的三大风险(梯度反演、模型反演、成员推断)的明确警告——是其他教材少见的"安全视角"。 - Mehrizi 2021 报告的 269 个 AI 应用市场调查(32% 纯云、46% 二选一)——给读者"行业现状"的硬数据。 - Health IT Security 2019 的"11.9 亿张图像可未授权访问"——震撼的"安全现状"提醒。 - 终身学习(Karani 2018)的简洁介绍——是真正能让多中心模型持续工作的实用技术

批判与补足: 1. "联邦学习 = 隐私保护" 的过度乐观——本章花了大量篇幅介绍 FL 的好处,但FL 已被证明在多种攻击下不安全(Nasr 2019, Geiping 2020)。建议补充:差分隐私(DP)、同态加密(HE)、安全多方计算(SMPC)这三大隐私增强技术的对比。FL + DP 是当前最务实的组合。 2. "梯度量化"与"模型精度" 的权衡讨论不足——从 32-bit 到 1-bit 量化在医学影像中的精度损失是否可接受?建议补充:8-bit 训练(Micikevicius 2018)在 ImageNet 上几乎不损失精度,但医学影像数据更小、更不均衡,需要更细致的评估。 3. "PACS 现代化"的实际操作建议不足——只指出问题("PACS 太被动"),但没说具体怎么解决。中间件方案(DICOM Q/R 包装器、HL7 FHIR 桥接器)是工程界已有实践,但本章未提。 4. "ONNX 是事实标准" 过于简化——ONNX 在 CV 任务上工作良好,但在 NLP、3D 医学影像、稀疏数据上仍有兼容性 bug。用 ONNX 前必须做转换测试。建议补充:模型打包的"标准栈"(ONNX + TorchServe + TensorRT + Triton Inference Server)。 5. "云服务的 vendor lock-in" 风险未明确——把 AI 训练放在 AWS SageMaker 后,模型部署、数据管理、监控都被锁在 AWS 生态。建议补充:跨云部署的可移植性策略(容器化、Helm charts、Kubernetes)。 6. "AI 流水线"在医学领域与通用 ML 流水线(KubeFlow、MLflow、TFX)的差异未充分讨论——医学影像 AI 对DICOM 解析、PHI 处理、监管审计的特殊要求,需要专门的流水线(如 MONAI Deploy、NVIDIA Clara)。 7. 缺"成本估算"——4 万美元/月的 AWS P3 实例训练 ResNet-50 在 1M 图像上 vs 自建 8-GPU 集群——这种 TCO(Total Cost of Ownership)对比是医院管理者关心的,本章没给数字。 8. "持续学习 AI" 的监管挑战过于简略——FDA 2021 提出的 Predetermined Change Control Plan (PCCP) 是"持续学习 AI" 的监管路径——本章未提。 9. 生物样本库的法律地位——病人数据的所有权、知识产权归属、商业化收益分配——本章未提(Ch 49 法规会展开,但本章可以预告)。 10. "11.9 亿张图像可未授权访问"——这个数字太重要但本章只用一段话带过。应该作为安全章节的开场震撼

给作者的问题: - 在 2022 年这个时间点,真实部署的医学影像 AI 系统中,联邦学习的占比是多少?我猜是个位数百分比——为什么这么低?技术还是组织问题? - NIST 云模型有 5+3+4,但医疗数据是否应该有"医疗专用云"标准(HIPAA-compliant cloud 的具体要求)?AWS GovCloud、Azure Government 这些是 marketing 名词还是有真正的技术差异? - 三种并行方式中,对医学影像这种"中等规模(3D 体积数据,~10GB/样本)"的数据,哪种最优?你的经验是? - 联邦学习的三大攻击已经证明 FL 不足以保护隐私——差分隐私 + FL 是否是答案?实际工程开销有多大?

值得复现的实践: - 用 PyTorch DDP(DistributedDataParallel)在 2-4 GPU 上做数据并行训练,测量同步开销。 - 在 Flower 框架上实现一个 3 节点的联邦学习模拟,验证 non-IID 数据对收敛的影响。 - ONNX 模型转换 + ONNX Runtime 推理——把 PyTorch 训练的 ResNet-50 转 ONNX,测量推理延迟。 - 用 MONAI Deploy 搭一个简单的 AI 推理流水线:DICOM 接收 → 预处理 → 模型推理 → DICOM SR 输出。

重要参考文献

[X1] Wilkinson MD, Dumontier M, Aalbersberg IJ, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016;3:160018. DOI: 10.1038/sdata.2016.18. [X2] European Society of Radiology. ESR position paper on imaging biobanks. Insights Imaging. 2015;6(4):403–10. DOI: 10.1007/s13244-015-0409-x. [X3] Mell P, Grance T. The NIST definition of cloud computing. NIST Special Publication 800-145. 2011. [X4] He J, Baxter SL, Xu J, et al. The practical implementation of artificial intelligence technologies in medicine. Nat Med. 2019;25(1):30–6. DOI: 10.1038/s41591-018-0310-z. [X5] Mehrizi MHR, van Ooijen P, Homan M. Applications of artificial intelligence (AI) in diagnostic radiology: a technography study. Eur Radiol. 2021;31(4):1805–11. DOI: 10.1007/s00330-020-07250-9. [X6] Mayer R, Jacobsen HA. Scalable deep learning on distributed infrastructures: challenges, techniques, and tools. ACM Comput Surv. 2021;53(3):1–37. DOI: 10.1145/3361774. [X7] Shi Z, Zhovannik I, Traverso A, et al. Distributed radiomics as a signature validation study using the personal health train infrastructure. Sci Data. 2019;6:218. DOI: 10.1038/s41597-019-0241-5. [X8] Mulshine JL, Avila RS, Conley E, et al. The International Association for the Study of Lung Cancer Early Lung Imaging Confederation. JCO Clin Cancer Inform. 2020;4:89–99. DOI: 10.1200/CCI.19.00108. [X9] Trägårdh E, Borrelli P, Kaboteh R, et al. RECOMIA – a cloud-based platform for artificial intelligence research in nuclear medicine and radiology. EJNMMI Phys. 2020;7:51. DOI: 10.1186/s40658-020-00316-9. [X10] Karani N, Chaitanya K, Baumgartner C, Konukoglu E. A lifelong learning approach to brain MR segmentation across scanners and protocols. In: MICCAI 2018, Springer; 2018. p. 476–84. DOI: 10.1007/978-3-030-00928-1_54. [X11] Davis J. Number of exposed PACS medical images increasing. Health IT Security. 19 Nov 2019. (11.9 亿张图像 PACS 漏洞报道) [X12] Alhajeri M, Ghulam S, Shah S. Limitations in and solutions for improving the functionality of PACS: an exploratory study of PACS professionals' perspectives. J Digit Imaging. 2019;32:54–67. DOI: 10.1007/s10278-018-0097-0.