第5章数据存储、云使用与人工智能流水线（Data Storage, Cloud Usage and Artificial Intelligence Pipeline）

作者

Peter M. A. van Ooijen, MSc, PhD, CPHIMS（通讯作者）— University Medical Center Groningen, 荷兰。本书最常出现的方法学贡献者（Ch 3, 5, 43, 45）。
Erfan Darzi, MSc — 同单位。
Andre Dekker, MSc, PhD — MAASTRO Clinic, GROW School, Maastricht UMC. 放射肿瘤学 + 医学数据科学。

本章的角色是Part I 的"IT 基础设施"章节——把 Ch 4 的"数据准备"延伸到"数据存哪里、算力怎么部署、模型怎么部署、怎么跨机构协作"。核心是NIST 云模型 + AI 流水线 + 联邦学习三大块。读者需有 Ch 3-4 基础，并理解"分布式系统"基本概念。

内容概述

本章给出 AI 临床落地的"IT 基础设施全貌"。核心论点：(1) 影像生物样本库（imaging biobank）是 AI 数据汇集的最佳载体——ESR 2015 立场文件定义其"与生物样本库链接的共享影像数据集合"，关键要求是FAIR（Findable, Accessible, Interoperable, Reusable）数据原则；(2) NIST 云模型是部署 AI 的事实标准——5 大特征（按需自服务、宽带访问、资源池化、快速弹性、计量服务）、3 类服务（SaaS/PaaS/IaaS）、4 种部署（私有/社区/公共/混合）；(3) AI 流水线分开发（数据→训练→验证）与部署（接收数据→输出预测）两段，二者对网络延迟、GPU/CPU 配比、模型交换格式（如 ONNX）有不同需求；(4) 数据并行 vs 模型并行 vs 管道并行是分布式训练的三种范式，配合同步/异步参数更新策略，可处理超大规模模型；(5) 联邦学习（FL）是"数据不出院"的关键架构——但梯度反演攻击、模型反演攻击、成员推断攻击仍是真实威胁，FL 不等于绝对隐私。本章是 Ch 6（如何构建算法）、Ch 8（生物样本库）、Ch 49（法规）的衔接点。

核心方程与概念

0. 几个量化表达

联邦学习数据量（Mehrizi 2021 调查）：在 269 个 AI 应用中，32% 纯云、46% 云/本地二选一、22% 仅本地——云部署已成主流。
PACS 安全漏洞量级：Health IT Security 2019 报道约 11.9 亿张医学图像通过云连接 PACS 可被未授权访问。
数据并行同步开销：在 \(N\) 个 worker 上做同步 SGD，\(T_{\text{total}} = N \cdot T_{\text{compute}} + T_{\text{sync}}\)，其中 \(T_{\text{sync}}\) 与网络带宽成反比、与参数规模成正比。

1. 影像生物样本库（Imaging Biobank）—— ESR 2015 定义

定义："shared databases of imaging biomarkers, linked to biorepositories"（欧洲放射学会 ESR 立场文件）。
4 项必备要求（图 5.1 的 4 层架构）：
集中 + 联邦混合架构——能跨多个数据源查询、分析、检索。
安全、基于权限的访问——RBAC（基于角色的访问控制）+ 审计日志。
完整的去标识（含影像和元数据）。
标准化的信息模型与术语（DICOM + HL7 + IHE workflow + FHIR + SNOMED CT）。
4 类存储来源（§5 列举）：
临床研究/试验数据。
疾病特异数据（如乳腺癌、肺癌、结肠癌筛查）。
普通人群数据（如 UK Biobank、NLST）。
纵向长期数据（如 Rotterdam Study）。
QIN 4 层架构（图 5.1）：Clinical Systems（顶层） → Research Methods（AI 算法、统计验证）→ Data Storage（影像库、元数据、临床数据）→ Shared Semantics（本体、通用数据元素、eCRF）。

2. FAIR 数据原则（Wilkinson 2016）

Findable（可发现）、Accessible（可访问）、Interoperable（互操作）、Reusable（可重用）。
13 条具体原则（如 F1: 数据有唯一持久标识符；A1: 数据可通过标准化协议检索；I1: 使用正式可访问的通用语言；R1: 有丰富元数据）。
核心思想：数据共享不是"上传到 Dropbox"，而是"用标准化的方式让其他研究者能找到、读懂、合并、再使用"。

3. NIST 云计算模型（图 5.2）

5 大特征（Essential Characteristics）：
On-demand self-service（按需自服务）——用户自助开通资源，无需人工。
Broad network access（宽带访问）——通过标准协议在各种终端（手机、平板、笔记本）访问。
Resource pooling（资源池化）——多租户共享物理资源，用户不知晓具体位置（但可指定国家/地区）。
Rapid elasticity（快速弹性）——按需自动扩缩容。
Measured service（计量服务）——按使用量计费（存储、CPU、GPU、内存、带宽）。
3 类服务模型（Service Models）：
SaaS（Software as a Service）——用户只管用应用（如 Gmail、PACS 软件在线版），底层基础设施全部由云商管理。
PaaS（Platform as a Service）——云商提供平台（OS、runtime、middleware、dev tools），用户控制应用和数据。
IaaS（Infrastructure as a Service）——云商提供裸机/VM/存储/网络，用户控制 OS 及以上所有。
4 种部署模型（Deployment Models）：
Private cloud（私有云）——单一组织独享，最封闭、最安全。
Community cloud（社区云）——多组织共享（如一组医院）。
Public cloud（公共云）——对外开放（AWS、Azure、GCP）。
Hybrid cloud（混合云）——私有 + 公共混合，跨环境交换数据/应用。

4. AI 流水线的两段（图 5.3-5.5）

开发流水线：数据收集 → 数据标注/清洗 → 训练 → 验证。
部署流水线：接收 (成像) 数据 → 模型推理 → 输出预测（标注/分割/分类）→ 整合到临床数据库。
GPU vs CPU 配比：
GPU 节点：训练阶段，吞吐高、延迟高。适合大批量矩阵乘。
CPU 节点：部署阶段，吞吐低、延迟低。适合单样本实时推理。
最优架构：GPU + CPU 混合（按需切换）。

5. 网络通信优化

精度降低（reduced precision）：32-bit float → 16-bit → 8-bit → 1-bit 量化（Gupta 2015）。医学影像通常不需要 32-bit 精度。降低精度 = 降低带宽 + 加快计算 + 减小模型。
稀疏梯度传输：只传输"显著"梯度更新（绝对值大于阈值），梯度二值化（gradient binarization，Tao 2018 esgd）。
压缩（lossless vs lossy）：lossless 完全可恢复但压缩比低（2-3x）；lossy 压缩比高（10-100x）但有信息损失。

6. 模型互操作性与 ONNX

问题：PyTorch 训练的模型在 TensorFlow 中无法直接使用。
ONNX（Open Neural Network Exchange）——一个开放的模型交换格式，支持 PyTorch、TensorFlow、Caffe、MXNet、CNTK 等框架的互转。

7. 三种分布式并行方式

数据并行（Data Parallelism, 图 5.3）：每个 worker 拿到相同的模型副本和不同的数据子集；每步迭代后同步参数。优点：实现简单；缺点：通信开销与 worker 数成线性增长，受 straggler 问题（最慢 worker 拖累整体）影响。
模型并行（Model Parallelism, 图 5.4）：把模型按层或按子图分配到不同 worker；每个 worker 算模型的一部分。需要频繁的前向/反向通信。
管道并行（Pipeline Parallelism, 图 5.5）：模型并行 + 数据并行的混合——把数据切成 mini-batch、模型切成段，每个 worker 处理一段模型 + 一个 mini-batch，形成"装配线"。当前大模型训练的标准做法（如 Megatron-LM, PaLM）。
混合并行（Hybrid Parallelism）：实际大模型项目（GPT-3, GPT-4）三种并行都用。

8. 参数同步策略

同步训练（synchronous SGD）：每 batch 后所有 worker 同步参数。收敛性好但有 straggler 问题——最慢的 worker 决定整体速度。
有界同步（bounded synchronous）：允许 worker 用稍微陈旧的参数（bounded staleness）——逼近同步性能 + 缓解 straggler。
异步训练（asynchronous）：每个 worker 独立更新参数——灵活但收敛性差（旧参数导致梯度冲突）。
集中 vs 分散架构：
集中（Parameter Server, PS）：所有 worker 向 PS 汇报梯度，PS 聚合后下发。代表：TensorFlow, GeePS, DistBelief。缺点：PS 单点故障风险。
分散（decentralized）：worker 之间直接通信（如 ring topology，Horovod 框架）。优点：无单点故障；缺点：通信复杂。
拓扑结构：
完全连接：每个 worker 通信 N-1 个 peer，通信 \(O(N^2)\)。
环形（ring）：每个 worker 只与左右邻居通信，通信 \(O(N)\)（Horovod 默认）。
树形：层级聚合。

9. 联邦学习（Federated Learning, FL）

核心思想：数据保留在本地医院，模型在各医院间"移动"——每个 worker 用本地数据训练，只把模型参数（或梯度）传回中央服务器进行聚合。
三大优势：
解决"医院不愿分享数据"的问题。
解决"GDPR/HIPAA 跨院数据流动困难"的问题。
汇集多中心数据，提升模型泛化能力。
三大风险（§5 专章强调）：
梯度反演攻击（gradient inversion attack）——从梯度反推训练数据。
模型反演攻击（model inversion attack）——从模型输出反推训练数据。
成员推断攻击（membership inference attack）——判断某样本是否在训练集中。
额外问题：各医院数据非独立同分布（non-IID）→ 全局最优 ≠ 各医院最优 → 可能降低本地性能。
三种 FL 拓扑：
聚合服务器（aggregation server）：中央服务器初始化、聚合、广播。
点对点（peer-to-peer）：无中心，节点间直接交换参数。
顺序（sequential）：模型在一个医院训练，再适配到下一个医院。又分：
- 域适应（domain adaptation）——仅优化目标域性能，源域性能可能下降。
- 终身学习（lifelong learning, Karani 2018）——保持对源域的"记忆"，通过为不同域学独立的 batch normalization 参数 + 共享卷积滤波器。
常见 FL 平台：Personal Health Train（PHT, Shi 2019）、NVFlare（NVIDIA）、Owkin、FeTS（Federated Tumor Segmentation）。

10. 局部 PACS 的"被动性"问题

大多数 PACS 设计为"医生主动查询"，不支持 API 主动调度——这与 AI 流水线需要的"事件驱动"模式不兼容。Alhajeri 2019 调查指出 PACS 功能性限制。
解决：中间件（middleware）将 PACS 包装成 API 可访问的服务；或使用 DICOM Q/R、DICOM STOW 等标准协议。

关键结论

影像生物样本库是 AI 数据汇集的"基础设施"——没有它，再多算法都无用武之地。ESR、NIH QIN 等组织都已发布标准。
NIST 云模型是行业事实标准——读懂它的 5+3+4 是评估任何云服务的基础。
AI 流水线 ≠ 一个 Python 脚本——它是包含数据管理、训练、部署、监控的完整工程系统。
GPU/CPU 配比：训练看 GPU 吞吐，部署看 CPU 延迟。同一台机器跑训练+部署不是最优。
分布式并行的三种范式——数据、模型、管道——可独立或组合使用。大模型（如 GPT-4）必须用三者混合。
ONNX 是模型互操作性的事实标准——能避免"模型被锁死在某个框架"。
联邦学习不是绝对隐私——梯度反演攻击是真实威胁；需要差分隐私（differential privacy）作为额外保护层。
PACS 是 AI 落地的最大 IT 瓶颈——不是算法、不是 GPU，而是"传统医疗 IT 系统的僵化"。Ch 49 法规 + 本章 IT 治理是系统性问题。
AI 部署的"商业模式"决定 IT 架构——纯云、SaaS、on-premise 各有适用场景（Ch 51 商业化专章展开）。

挑战和开放性问题

跨机构数据共享的经济模型不成熟——医院要数据费、AI 公司要独家——这是行业级问题。
FAIR 原则的执行标准不统一——名义上"FAIR-compliant"的数据集很多，但真正可互操作的很少。DICOM + HL7 + FHIR + IHE + SNOMED CT + RadLex 等标准之间的映射仍是工程难题。
梯度反演攻击的防御——添加噪声（差分隐私）会降低模型效用——隐私 vs 性能的 trade-off 难以调优。
联邦学习在 non-IID 数据下的收敛性——理论保证与实际表现有差距；近年 FedProx、SCAFFOLD 等算法在改进，但工业界大规模成功案例仍少。
ONNX 的版本兼容性问题——不同框架导出的 ONNX 在某些算子上仍不兼容，特别是新算子（如 Flash Attention）。
云服务的"vendor lock-in"——AWS SageMaker 训练的模型很难直接部署到 Azure；标准化（如 KubeFlow、MLflow）推进中但远未完成。
PACS 现代化的工程难度——大型医院有 10+ 年历史的 PACS 系统，更换成本数百万美元。
"云 vs 本地" 的医疗数据安全法规——中国《数据安全法》、欧盟 GDPR、美国 HIPAA 三套体系对"医疗数据能否上公有云" 规定不同。Mehrizi 2021 报告中46% 的 AI 应用同时提供云/本地部署选项反映了这套法规的复杂性。
AI 模型的"持续学习"与"质量保证"冲突——模型版本更新后，"昨天工作的模型在今天的新数据上可能失败"——这是 FDA 等监管机构的核心担忧。
"AI 模型市场"（marketplace）的法律风险——平台上的第三方模型如果出医疗事故，责任在平台还是在开发者？这在 Ch 49 法规中会进一步讨论。

个人反思与批判性分析

本章作为"AI IT 基础设施"写得全面且工程化，是全书最"硬核"的章节之一。值得反思的几点：

优势： - 把"影像生物样本库"作为 IT 基础设施的最高层——强调 FAIR 原则——这是从纯技术角度升级到治理角度的视角。 - NIST 云模型图 5.2 是行业标准总结，任何要做云评估的医生/工程师都能直接受益。 - 三种分布式并行（数据/模型/管道）的图 5.3-5.5 清晰——这是大模型时代的必备知识。 - 联邦学习的三大风险（梯度反演、模型反演、成员推断）的明确警告——是其他教材少见的"安全视角"。 - Mehrizi 2021 报告的 269 个 AI 应用市场调查（32% 纯云、46% 二选一）——给读者"行业现状"的硬数据。 - Health IT Security 2019 的"11.9 亿张图像可未授权访问"——震撼的"安全现状"提醒。 - 终身学习（Karani 2018）的简洁介绍——是真正能让多中心模型持续工作的实用技术。

批判与补足： 1. "联邦学习 = 隐私保护" 的过度乐观——本章花了大量篇幅介绍 FL 的好处，但FL 已被证明在多种攻击下不安全（Nasr 2019, Geiping 2020）。建议补充：差分隐私（DP）、同态加密（HE）、安全多方计算（SMPC）这三大隐私增强技术的对比。FL + DP 是当前最务实的组合。 2. "梯度量化"与"模型精度" 的权衡讨论不足——从 32-bit 到 1-bit 量化在医学影像中的精度损失是否可接受？建议补充：8-bit 训练（Micikevicius 2018）在 ImageNet 上几乎不损失精度，但医学影像数据更小、更不均衡，需要更细致的评估。 3. "PACS 现代化"的实际操作建议不足——只指出问题（"PACS 太被动"），但没说具体怎么解决。中间件方案（DICOM Q/R 包装器、HL7 FHIR 桥接器）是工程界已有实践，但本章未提。 4. "ONNX 是事实标准" 过于简化——ONNX 在 CV 任务上工作良好，但在 NLP、3D 医学影像、稀疏数据上仍有兼容性 bug。用 ONNX 前必须做转换测试。建议补充：模型打包的"标准栈"（ONNX + TorchServe + TensorRT + Triton Inference Server）。 5. "云服务的 vendor lock-in" 风险未明确——把 AI 训练放在 AWS SageMaker 后，模型部署、数据管理、监控都被锁在 AWS 生态。建议补充：跨云部署的可移植性策略（容器化、Helm charts、Kubernetes）。 6. "AI 流水线"在医学领域与通用 ML 流水线（KubeFlow、MLflow、TFX）的差异未充分讨论——医学影像 AI 对DICOM 解析、PHI 处理、监管审计的特殊要求，需要专门的流水线（如 MONAI Deploy、NVIDIA Clara）。 7. 缺"成本估算"——4 万美元/月的 AWS P3 实例训练 ResNet-50 在 1M 图像上 vs 自建 8-GPU 集群——这种 TCO（Total Cost of Ownership）对比是医院管理者关心的，本章没给数字。 8. "持续学习 AI" 的监管挑战过于简略——FDA 2021 提出的 Predetermined Change Control Plan (PCCP) 是"持续学习 AI" 的监管路径——本章未提。 9. 生物样本库的法律地位——病人数据的所有权、知识产权归属、商业化收益分配——本章未提（Ch 49 法规会展开，但本章可以预告）。 10. "11.9 亿张图像可未授权访问"——这个数字太重要但本章只用一段话带过。应该作为安全章节的开场震撼。

给作者的问题： - 在 2022 年这个时间点，真实部署的医学影像 AI 系统中，联邦学习的占比是多少？我猜是个位数百分比——为什么这么低？技术还是组织问题？ - NIST 云模型有 5+3+4，但医疗数据是否应该有"医疗专用云"标准（HIPAA-compliant cloud 的具体要求）？AWS GovCloud、Azure Government 这些是 marketing 名词还是有真正的技术差异？ - 三种并行方式中，对医学影像这种"中等规模（3D 体积数据，~10GB/样本）"的数据，哪种最优？你的经验是？ - 联邦学习的三大攻击已经证明 FL 不足以保护隐私——差分隐私 + FL 是否是答案？实际工程开销有多大？

值得复现的实践： - 用 PyTorch DDP（DistributedDataParallel）在 2-4 GPU 上做数据并行训练，测量同步开销。 - 在 Flower 框架上实现一个 3 节点的联邦学习模拟，验证 non-IID 数据对收敛的影响。 - ONNX 模型转换 + ONNX Runtime 推理——把 PyTorch 训练的 ResNet-50 转 ONNX，测量推理延迟。 - 用 MONAI Deploy 搭一个简单的 AI 推理流水线：DICOM 接收 → 预处理 → 模型推理 → DICOM SR 输出。

重要参考文献

[X1] Wilkinson MD, Dumontier M, Aalbersberg IJ, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016;3:160018. DOI: 10.1038/sdata.2016.18. [X2] European Society of Radiology. ESR position paper on imaging biobanks. Insights Imaging. 2015;6(4):403–10. DOI: 10.1007/s13244-015-0409-x. [X3] Mell P, Grance T. The NIST definition of cloud computing. NIST Special Publication 800-145. 2011. [X4] He J, Baxter SL, Xu J, et al. The practical implementation of artificial intelligence technologies in medicine. Nat Med. 2019;25(1):30–6. DOI: 10.1038/s41591-018-0310-z. [X5] Mehrizi MHR, van Ooijen P, Homan M. Applications of artificial intelligence (AI) in diagnostic radiology: a technography study. Eur Radiol. 2021;31(4):1805–11. DOI: 10.1007/s00330-020-07250-9. [X6] Mayer R, Jacobsen HA. Scalable deep learning on distributed infrastructures: challenges, techniques, and tools. ACM Comput Surv. 2021;53(3):1–37. DOI: 10.1145/3361774. [X7] Shi Z, Zhovannik I, Traverso A, et al. Distributed radiomics as a signature validation study using the personal health train infrastructure. Sci Data. 2019;6:218. DOI: 10.1038/s41597-019-0241-5. [X8] Mulshine JL, Avila RS, Conley E, et al. The International Association for the Study of Lung Cancer Early Lung Imaging Confederation. JCO Clin Cancer Inform. 2020;4:89–99. DOI: 10.1200/CCI.19.00108. [X9] Trägårdh E, Borrelli P, Kaboteh R, et al. RECOMIA – a cloud-based platform for artificial intelligence research in nuclear medicine and radiology. EJNMMI Phys. 2020;7:51. DOI: 10.1186/s40658-020-00316-9. [X10] Karani N, Chaitanya K, Baumgartner C, Konukoglu E. A lifelong learning approach to brain MR segmentation across scanners and protocols. In: MICCAI 2018, Springer; 2018. p. 476–84. DOI: 10.1007/978-3-030-00928-1_54. [X11] Davis J. Number of exposed PACS medical images increasing. Health IT Security. 19 Nov 2019. (11.9 亿张图像 PACS 漏洞报道) [X12] Alhajeri M, Ghulam S, Shah S. Limitations in and solutions for improving the functionality of PACS: an exploratory study of PACS professionals' perspectives. J Digit Imaging. 2019;32:54–67. DOI: 10.1007/s10278-018-0097-0.

第5章 数据存储、云使用与人工智能流水线（Data Storage, Cloud Usage and Artificial Intelligence Pipeline）

作者