第4章人工智能的数据准备（Data Preparation for Artificial Intelligence）

作者

Aline L. de Araujo, MD, PhD — Segmed, Inc, Menlo Park, CA; Department of Ophthalmology and Visual Sciences, Universidade Federal de São Paulo, Brazil. 工业界（医疗影像数据平台）+ 学术界的双重角色。
Cailin Hardell, MS; Wojciech A. Koszek, MS; Jie Wu, PhD — Segmed, Inc. 工业界数据工程团队。
Martin J. Willemink, MD, PhD（通讯作者）— Segmed, Inc; Department of Radiology, Stanford University School of Medicine. Stanford 放射学 + 产业界（Segmed 联合创始人），专攻心脏 CT。

本章的角色是全书的"数据准备"工程指南——把 Ch 1-3 提到的"数据是 AI 瓶颈"具体化为"8 步可执行流程"。作者团队（Segmed + Stanford）有大量业界实战经验——他们不是单纯在写理论，而是把"如何从医院 PACS 中把数据合规地拿到一个 AI 项目中"这件事工程化。读者需要知道 PACS、DICOM、HIPAA/GDPR 的基本概念。

内容概述

本章把"AI 数据准备"拆成 8 个连续步骤：① 伦理审批（IRB 流程）→ ② 数据获取（医院内 vs 多机构）→ ③ 数据查询（PHI-based 搜索的局限）→ ④ 去标识（HIPAA/GDPR 双框架）→ ⑤ 数据传输与存储（本地 vs 云）→ ⑥ 质量控制（图像质量 + 多样性）→ ⑦ 数据结构化（从非结构化文本到结构化字段，主要靠 NLP）→ ⑧ 数据标注（图 4.2 的三档标签价值层级）。核心论点：(1) "数据缺乏"是医学影像 AI 临床部署的最大障碍，远超算法、算力或监管挑战；(2) 公开数据集（TCIA, CheXpert, ChestX-ray8 等）虽多，但心血管影像公开数据极少，且多基于旧设备、样本量小、不允许商业使用——对商业开发远远不够；(3) PHI 去标识比一般想象更复杂——除了 DICOM header，还有 burned-in PHI（如 echo 报告中的患者信息）、3D 重建中的面部特征等"隐蔽"形式；(4) NLP 是从放射学报告中提取结构化标签的关键工具——传统规则法、word2vec/GloVe 嵌入法、RNN 各有取舍，准确率可达 97%+(Banerjee 2018)；(5) 标签价值的层级——回顾性标注 < 前瞻性标注 < 基于"金标准"（如 FFR、尸检）的标签——这一层级决定了模型上限。本章是 Ch 5（数据存储）、Ch 6（如何构建算法）、Ch 49（法规）的衔接点。

核心方程与概念

本章以工程流程 + 合规要求为主，数学公式极少——但以下几个关键概念必须掌握：

0. 几个量化表达

k-匿名（k-anonymity, El Emam 2008）：在去标识后的数据集中，对每个记录的准标识符（如年龄、性别、邮编），至少存在 \(k-1\) 个其他记录与之不可区分。\(k=5\) 意味着任何"被重识别"的目标至少与 5 人共享同一组准标识符。
基线报告错误率：放射学报告的"可证明错误率"约 2-20%（§4.2.2 引用）——这一区间决定了 NLP 标签提取的误差下限。
Banerjee 2018 报告分类性能：在胸部 CT 报告上做肺栓塞多子任务（急性/慢性、中央/亚段），每个子任务精度 \(P > 0.97\)，即 \(P(\hat{y}=y) > 0.97\)。

1. 数据准备的 8 步流程（图 4.1）

伦理审批 → 数据获取 → 数据查询 → 去标识 → 传输 → 质量控制 → 结构化 → 标注
这是"从医院 PACS 到可训练数据集"的完整链条；每一步都可能成为项目瓶颈。

2. 数据来源的两条路径

公开数据集：TCIA（含 NLST 国家肺癌筛查试验）、CheXpert、ChestX-ray8、BRATS 脑肿瘤分割等。心血管影像公开数据集很少（这是 2020 年时的现状，到 2026 年有所改善如 MIMIC-CXR、CheXpert + MIMIC-IV）。
多机构合作：与多家医院 / 影像中心合作收集去标识数据。代表平台：Segmed（本章作者创办）。优势：样本大、异质性好；劣势：周期长、合规成本高。

3. HIPAA 18 项 PHI 标识符（必须去除）

患者姓名、地址（小于州一级）、日期（除年份外）、电话/传真、邮箱、SSN、医疗记录号、健康计划号、账号、证书/许可证号、设备 ID、车辆 ID、URL、IP、指纹/声纹、照片、其他可唯一识别特征。
3 个隐蔽 PHI 来源（本章特别强调）：
DICOM header 中的非标准 tag——商业软件可能把患者姓名放在私有 tag 中，标准去标识工具漏掉。
"burned-in" PHI——echo 视频、扫描的非数字 X 线片中烧录的患者信息。
3D 重建中的面部特征——头部 CT 的容积渲染可识别患者。心血管影像风险较低。
k-匿名（k-anonymity）：更高级的去标识方法——把数据集转换后任何一条记录至少与 k-1 条其他记录无法区分。El Emam 2008。

4. 数据查询的"PHI 搜索"困境

临床 PACS/RIS 系统的设计目标是为医生服务的，搜索通常基于患者姓名 + DOB + MRN——这与 ML 项目的搜索需求（"找所有 65-75 岁男性、有冠脉 CTA 检查、含冠脉钙化评分标签的病例"）不匹配。
解决：商业查询工具（Illuminate, mPower, STARR）、自定义 SQL、NLP（Ch 23 专章）。

5. DICOM vs NIfTI 格式权衡

DICOM：保留 header 中的所有元数据（设备参数、采集协议、PHI），是临床标准。
NIfTI：仅保留像素/体素和患者位置信息，无 PHI——适合数据共享。
取舍：去 PHI → 转 NIfTI → 失去可能对模型有用的元数据。

6. 质量控制的两层

客观质量：噪声、对比噪声比（CNR）、运动伪影。
主观质量：心脏运动伪影、对位准确性。
多样性：地理、人群（种族、性别）、扫描仪/设备类型——直接决定泛化能力。
关键悖论：质量控制是 ML 项目中"最昂贵的人工环节"——而本身需要 ML 来加速（用 ML 做 ML 的 QC）。

7. NLP 在数据准备中的三种方法

规则法（Rule-based）：基于关键词+规则库（如 SNOMED CT, UMLS）的查找。优势：可解释；劣势：需要专家手工编写规则。
词嵌入法（Word Embedding）：word2vec（2013）、GloVe（2014）把语义相似的词映射到向量空间相近位置。代表：Banerjee 2018 用 word2vec + 语义字典混合法在胸部 CT 报告中提取肺栓塞信息，每个子任务精度 > 97%。
RNN 法：用循环神经网络处理"远距离否定"——例 "No evidence can be found on this exam for significant coronary stenosis"中"no"远离"stenosis"，规则法难处理，RNN 表现更好。Banerjee 2019 比较 CNN vs RNN 在放射学报告分类上的效果。
报告错误率 2-20%——放射学报告不是金标准，NLP 提取的标签继承了这一错误率。

8. 标签价值的三个层级（图 4.2）

低价值（回顾性标注）：研究者事后看图像+病史标注，受信息限制。
中价值（前瞻性标注）：标注时能看到完整临床信息，但仍可能是单一专家。
高价值（基于"金标准"）：组织病理、侵入性血管造影、尸检、长期随访终点。
例：冠脉 CTA 评估狭窄 → 金标准是侵入性 FFR（不是 CT 本身）；主动脉夹层 → 影像本身可作金标准。

9. 结构化报告（Structured Reporting）

CAD-RADS（Cury 2016, SCCT/ACR/NASCI 共识）：冠脉 CTA 报告标准化系统——把"狭窄程度"映射为 0-5 等级，与 AI 系统兼容（Ch 26 专章）。
DICOM Structured Reporting (SR)（Clunie 2000）：标准化的报告存储格式，AI 可读。

关键结论

数据可用性是 AI 临床部署的最大障碍——比监管、算法、商业模式都关键。本章明确指出"well-curated 大型心血管影像数据集的缺乏是首要瓶颈"（与 Ch 3、Ch 11、Ch 49 一致）。
公开数据集对商业开发远远不够——多基于旧设备、样本小、协议各异、且许可证通常禁止商业用途。
多机构合作 + 联邦学习是趋势——但工程与合规复杂度高。Segmed 这种"中间件"平台提供"数据采购"的解决方案，但也带来经济与伦理新问题（如何对患者和数据提供医院付费？）。
去标识远不止"删除 DICOM 头部"——burned-in PHI、3D 重建中的面部特征、跨数据集交叉重识别都是真实风险。
标签价值层级决定了模型性能上限——用 FFR、组织病理、长期随访等"金标准"做标签的模型通常比仅用"放射学报告"的高。
NLP 是从"无标签"到"标签"的关键工具——但 NLP 提取的标签继承了原报告的错误率（2-20%）。这意味着"用 NLP 提取的标签训练的 AI"可能放大原始错误——一个值得警惕的系统性问题。
结构化报告（CAD-RADS, DICOM SR）将放射学"AI 友好化"——是 AI 落地的"基础设施"投入。
质量控制本身就是"用 AI 加速 AI" 的工作——形成正反馈循环。

挑战和开放性问题

公开心血管影像数据集的稀缺——到 2020 年几乎没有与胸部 X 线 / 眼底图像等价规模的公开心血管数据集。Ch 8（生物样本库）会再次讨论。
去标识的"对抗性"风险——简单的 18 项 PHI 去除不够。商用去标识工具的稳健性需要定期审计（Aryanto 2015 比较了几个开源工具）。对抗性重识别（用一个去标识数据集 + 另一个公开数据集交叉）仍是开放威胁。
NLP 提取标签的"错误继承"问题——放射学报告错误率 2-20%，NLP 提取的标签错误率会更高（规则法 vs RNN vs word2vec 各有偏差）。如何评估和纠正这种系统性偏差未有标准方法。
数据多样性的量化缺失——什么样的"多样性"才足以保证泛化？没有标准度量——通常靠经验判断。数据集"偏见审计" 是新兴研究方向。
跨机构合作的"经济与法律"摩擦——医院要数据费、AI 公司要独家、合作中知识产权归属不清。这比技术挑战更常拖垮项目。Ch 51（商业化）专章。
前瞻性标注的高成本——一个专家 1 小时标注 20-50 例冠脉病灶，每例 5-15 分钟。1 万例标注意味着 一个全职专家 1-2 年——成本 50-200 万美元。
结构化报告的"医生抵触"——CAD-RADS 等结构化报告需要医生改变习惯，临床采纳率低。这是社会-技术问题，不是技术问题。
k-匿名 vs 数据利用度的矛盾——k 越大匿名性越好，但数据越粗糙（k=5 时同一分组至少 5 人）。医学数据的高维度使 k 难以调优。
"联邦学习"在临床实践中的可操作性——Sheller 2020 综述了联邦学习在医疗中的潜力，但实际部署涉及各医院 IT 团队、隐私审查、网络稳定性，复杂度远超"算法演示"。

个人反思与批判性分析

本章作为"数据准备工程指南"是全书写得最实用的章节之一，但仍有几点值得反思：

优势： - 8 步流程图清晰可作为项目启动清单。 - HIPAA 18 项 PHI 列表的明文给出——是放射科医生/数据工程师的合规速查。 - 三大隐蔽 PHI 来源（header、burned-in、3D 面部）的提醒——是其他教材少见的"踩坑预警"。 - 标签价值三层级（图 4.2）——把"标签质量"从抽象的"好/坏"细化为可操作的层级。 - NLP 三种方法的对比（规则法 vs word2vec vs RNN）——给读者明确选择指南。 - Banerjee 2018 报告 97% 精度的具体数字——可作为读者重复实验的参考。 - 多机构合作的 Segmed 平台案例——提供了"工业界如何做"的参考。 - 与 Ch 5（数据存储/云）、Ch 6（如何构建算法）的衔接清晰。

批判与补足： 1. "标签价值三层"过于简略——实际临床中还有更多层级：① 多专家共识（减少单标注者偏差）；② 仲裁者机制（专家不一致时由第三位仲裁）；③ 量化标签不确定性（如 CheXpert 的"不确定"标签——Irvin 2019）；④ 对抗验证（adversarial validation）——用训练集和测试集的可分性判断数据是否同分布。这些"标签质量保证"在工业界已有实践，本章只点了一笔。 2. "用 NLP 提取标签" 的系统风险未充分讨论——2-20% 的报告错误率 + NLP 自身 5-10% 的错误率 → 复合错误率 6-30%。这种"标签噪声"在训练时会向模型传递偏差。建议补充 Label Smoothing、Confident Learning、Cleanlab 等"噪声标签学习"的方法。 3. 缺"标签一致性度量"——Cohen's κ、ICC、Fleiss' κ 等多标注者一致性度量未提及。没有 κ 报告的标注研究是方法学不严谨的。 4. 缺"数据集偏见审计"工具——近年提出的 What-If Tool (WIT, Google)、Aequitas、Fairlearn 等工具本章未提。这些工具能自动检查"AI 是否对特定子群表现差"。 5. "云存储"的成本与能耗未提——4 万美元/年的云存储 + GPU 训练能耗 + 数据传输费 = 实际项目真实成本远超"开发算法"本身。建议补充"小医院如何负担"的讨论。 6. 数据生命周期管理缺失——保留多久？谁有权删除？删除后如何证明？这是 GDPR "right to be forgotten" 要求的。本章没提。 7. 未讨论"合成数据作为数据准备的一部分"——Diller 2019 (Ch 3) 的合成数据案例是训练时用，但合成数据是否能在数据准备阶段（解决"金标准不可得"）也发挥作用？是新兴方向。 8. Segmed 平台的利益冲突未充分声明——本章三位作者就职 Segmed，把"多机构合作"作为推荐路径推荐读者使用 Segmed。这是编辑性偏见——一本 2022 年的书中推荐特定商业产品，会让学术读者警惕。 9. "数据访问"一节严重偏向美国视角——HIPAA、IRB 反复出现，但欧盟 GDPR、英国 HRA、中国《个人信息保护法》PIPL 等其他主要司法管辖区只在第 2 段被"点名"。这是国际化书的明显疏漏——心胸影像 AI 是全球性工作，数据合规不能只谈美国。 10. "质量控制"的自动化方法过于简略——只说"用 ML 做 ML 的 QC"——但具体方法（如 AutoML for QC、对抗样本检测、分布外检测）值得专门段落。

给作者的问题： - 在 2022 年这个时间点，公开心血管影像数据集的规模是 ChestX-ray8 (30 万) 的多少？几乎没有等价品？这是行业的结构性问题还是暂时性问题？ - Segmed 平台对患者付费了吗？对数据提供医院付费了吗？ 这直接影响患者和数据提供方的"道德经济"——能否在书里澄清？ - 如果临床医生"故意"在报告中写错（避免责任），NLP 提取的标签会带偏差。这种"防御性医疗" 对 AI 训练的影响有多大？有任何研究量化过吗？ - 联邦学习被反复宣传为"多机构合作"的解决方案，但 2017-2022 的 5 年里，有多少 AI 项目真的用联邦学习成功落地？我估计是少数——为什么？

值得复现的实践： - HIPAA 18 项 PHI 自动扫描脚本——用 PyDICOM 写一个扫描 DICOM header 的工具，标记所有 PHI 字段。 - NLP 标签提取的完整流程——用 CheXpert 报告训练一个小型 BioBERT 模型，提取 14 类胸片异常标签。 - 多标注者一致性度量——3 名放射科住院医师对 100 例冠脉 CTA 标注，取 Cohen's κ。 - 联邦学习模拟——用 Flower 或 PySyft 在 3 个"虚拟医院"上联合训练，模拟"数据不离开本地"。

重要参考文献

[X1] Willemink MJ, Koszek WA, Hardell C, Wu J, Fleischmann D, Harvey H, Folio LR, Summers RM, Rubin DL, Lungren MP. Preparing medical imaging data for machine learning. Radiology. 2020;295(1):4–15. DOI: 10.1148/radiol.2020192224. [X2] Langlotz CP, Allen B, Erickson BJ, et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 NIH/RSNA/ACR/The Academy Workshop. Radiology. 2019;291:781–91. DOI: 10.1148/radiol.2019181811. [X3] Park SH, Han K. Methodologic guide for evaluating clinical performance and effect of artificial intelligence technology for medical diagnosis and prediction. Radiology. 2018;286:800–9. DOI: 10.1148/radiol.2017172680. [X4] Aryanto KYE, Oudkerk M, van Ooijen PMA. Free DICOM de-identification tools in clinical research: functioning and safety of patient privacy. Eur Radiol. 2015;25:3685–95. DOI: 10.1007/s00330-015-3794-0. [X5] El Emam K, Dankar FK. Protecting privacy using k-anonymity. J Am Med Inform Assoc. 2008;15:627–37. DOI: 10.1197/jamia.M2716. [X6] Banerjee I, Chen MC, Lungren MP, Rubin DL. Radiology report annotation using intelligent word embeddings: applied to multi-institutional chest CT cohort. J Biomed Inform. 2018;77:11–20. DOI: 10.1016/j.jbi.2017.10.005. [X7] Banerjee I, Ling Y, Chen MC, et al. Comparative effectiveness of convolutional neural network (CNN) and recurrent neural network (RNN) architectures for radiology text report classification. Artif Intell Med. 2019;97:79–88. DOI: 10.1016/j.artmed.2018.10.004. [X8] Irvin J, Rajpurkar P, Ko M, et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. AAAI. 2019;33:590–7. (arXiv:1901.07031). [X9] Cury RC, Abbara S, Achenbach S, et al. CAD-RADSTM Coronary Artery Disease – Reporting and Data System. J Cardiovasc Comput Tomogr. 2016;10:269–81. DOI: 10.1016/j.jcct.2016.04.005. [X10] Clunie DA. DICOM structured reporting. Bangor, PA: PixelMed Publishing; 2000. (ISBN 978-096400-642-8) [X11] Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-Ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. CVPR. 2017. DOI: 10.1109/CVPR.2017.369. [X12] Soffer S, Ben-Cohen A, Shimon O, Amitai MM, Greenspan H, Klang E. Convolutional neural networks for radiologic images: a radiologist's guide. Radiology. 2019;290:590–606. DOI: 10.1148/radiol.2018180547.

第4章 人工智能的数据准备（Data Preparation for Artificial Intelligence）

作者