第4章 人工智能的数据准备(Data Preparation for Artificial Intelligence)
作者
- Aline L. de Araujo, MD, PhD — Segmed, Inc, Menlo Park, CA; Department of Ophthalmology and Visual Sciences, Universidade Federal de São Paulo, Brazil. 工业界(医疗影像数据平台)+ 学术界的双重角色。
- Cailin Hardell, MS; Wojciech A. Koszek, MS; Jie Wu, PhD — Segmed, Inc. 工业界数据工程团队。
- Martin J. Willemink, MD, PhD(通讯作者)— Segmed, Inc; Department of Radiology, Stanford University School of Medicine. Stanford 放射学 + 产业界(Segmed 联合创始人),专攻心脏 CT。
本章的角色是全书的"数据准备"工程指南——把 Ch 1-3 提到的"数据是 AI 瓶颈"具体化为"8 步可执行流程"。作者团队(Segmed + Stanford)有大量业界实战经验——他们不是单纯在写理论,而是把"如何从医院 PACS 中把数据合规地拿到一个 AI 项目中"这件事工程化。读者需要知道 PACS、DICOM、HIPAA/GDPR 的基本概念。
内容概述
本章把"AI 数据准备"拆成 8 个连续步骤:① 伦理审批(IRB 流程)→ ② 数据获取(医院内 vs 多机构)→ ③ 数据查询(PHI-based 搜索的局限)→ ④ 去标识(HIPAA/GDPR 双框架)→ ⑤ 数据传输与存储(本地 vs 云)→ ⑥ 质量控制(图像质量 + 多样性)→ ⑦ 数据结构化(从非结构化文本到结构化字段,主要靠 NLP)→ ⑧ 数据标注(图 4.2 的三档标签价值层级)。核心论点:(1) "数据缺乏"是医学影像 AI 临床部署的最大障碍,远超算法、算力或监管挑战;(2) 公开数据集(TCIA, CheXpert, ChestX-ray8 等)虽多,但心血管影像公开数据极少,且多基于旧设备、样本量小、不允许商业使用——对商业开发远远不够;(3) PHI 去标识比一般想象更复杂——除了 DICOM header,还有 burned-in PHI(如 echo 报告中的患者信息)、3D 重建中的面部特征等"隐蔽"形式;(4) NLP 是从放射学报告中提取结构化标签的关键工具——传统规则法、word2vec/GloVe 嵌入法、RNN 各有取舍,准确率可达 97%+(Banerjee 2018);(5) 标签价值的层级——回顾性标注 < 前瞻性标注 < 基于"金标准"(如 FFR、尸检)的标签——这一层级决定了模型上限。本章是 Ch 5(数据存储)、Ch 6(如何构建算法)、Ch 49(法规)的衔接点。
核心方程与概念
本章以工程流程 + 合规要求为主,数学公式极少——但以下几个关键概念必须掌握:
0. 几个量化表达
- k-匿名(k-anonymity, El Emam 2008):在去标识后的数据集中,对每个记录的准标识符(如年龄、性别、邮编),至少存在 \(k-1\) 个其他记录与之不可区分。\(k=5\) 意味着任何"被重识别"的目标至少与 5 人共享同一组准标识符。
- 基线报告错误率:放射学报告的"可证明错误率"约 2-20%(§4.2.2 引用)——这一区间决定了 NLP 标签提取的误差下限。
- Banerjee 2018 报告分类性能:在胸部 CT 报告上做肺栓塞多子任务(急性/慢性、中央/亚段),每个子任务精度 \(P > 0.97\),即 \(P(\hat{y}=y) > 0.97\)。
1. 数据准备的 8 步流程(图 4.1)
- 伦理审批 → 数据获取 → 数据查询 → 去标识 → 传输 → 质量控制 → 结构化 → 标注
- 这是"从医院 PACS 到可训练数据集"的完整链条;每一步都可能成为项目瓶颈。
2. 数据来源的两条路径
- 公开数据集:TCIA(含 NLST 国家肺癌筛查试验)、CheXpert、ChestX-ray8、BRATS 脑肿瘤分割等。心血管影像公开数据集很少(这是 2020 年时的现状,到 2026 年有所改善如 MIMIC-CXR、CheXpert + MIMIC-IV)。
- 多机构合作:与多家医院 / 影像中心合作收集去标识数据。代表平台:Segmed(本章作者创办)。优势:样本大、异质性好;劣势:周期长、合规成本高。
3. HIPAA 18 项 PHI 标识符(必须去除)
- 患者姓名、地址(小于州一级)、日期(除年份外)、电话/传真、邮箱、SSN、医疗记录号、健康计划号、账号、证书/许可证号、设备 ID、车辆 ID、URL、IP、指纹/声纹、照片、其他可唯一识别特征。
- 3 个隐蔽 PHI 来源(本章特别强调):
- DICOM header 中的非标准 tag——商业软件可能把患者姓名放在私有 tag 中,标准去标识工具漏掉。
- "burned-in" PHI——echo 视频、扫描的非数字 X 线片中烧录的患者信息。
- 3D 重建中的面部特征——头部 CT 的容积渲染可识别患者。心血管影像风险较低。
- k-匿名(k-anonymity):更高级的去标识方法——把数据集转换后任何一条记录至少与 k-1 条其他记录无法区分。El Emam 2008。
4. 数据查询的"PHI 搜索"困境
- 临床 PACS/RIS 系统的设计目标是为医生服务的,搜索通常基于患者姓名 + DOB + MRN——这与 ML 项目的搜索需求("找所有 65-75 岁男性、有冠脉 CTA 检查、含冠脉钙化评分标签的病例")不匹配。
- 解决:商业查询工具(Illuminate, mPower, STARR)、自定义 SQL、NLP(Ch 23 专章)。
5. DICOM vs NIfTI 格式权衡
- DICOM:保留 header 中的所有元数据(设备参数、采集协议、PHI),是临床标准。
- NIfTI:仅保留像素/体素和患者位置信息,无 PHI——适合数据共享。
- 取舍:去 PHI → 转 NIfTI → 失去可能对模型有用的元数据。
6. 质量控制的两层
- 客观质量:噪声、对比噪声比(CNR)、运动伪影。
- 主观质量:心脏运动伪影、对位准确性。
- 多样性:地理、人群(种族、性别)、扫描仪/设备类型——直接决定泛化能力。
- 关键悖论:质量控制是 ML 项目中"最昂贵的人工环节"——而本身需要 ML 来加速(用 ML 做 ML 的 QC)。
7. NLP 在数据准备中的三种方法
- 规则法(Rule-based):基于关键词+规则库(如 SNOMED CT, UMLS)的查找。优势:可解释;劣势:需要专家手工编写规则。
- 词嵌入法(Word Embedding):word2vec(2013)、GloVe(2014)把语义相似的词映射到向量空间相近位置。代表:Banerjee 2018 用 word2vec + 语义字典混合法在胸部 CT 报告中提取肺栓塞信息,每个子任务精度 > 97%。
- RNN 法:用循环神经网络处理"远距离否定"——例 "No evidence can be found on this exam for significant coronary stenosis"中"no"远离"stenosis",规则法难处理,RNN 表现更好。Banerjee 2019 比较 CNN vs RNN 在放射学报告分类上的效果。
- 报告错误率 2-20%——放射学报告不是金标准,NLP 提取的标签继承了这一错误率。
8. 标签价值的三个层级(图 4.2)
- 低价值(回顾性标注):研究者事后看图像+病史标注,受信息限制。
- 中价值(前瞻性标注):标注时能看到完整临床信息,但仍可能是单一专家。
- 高价值(基于"金标准"):组织病理、侵入性血管造影、尸检、长期随访终点。
- 例:冠脉 CTA 评估狭窄 → 金标准是侵入性 FFR(不是 CT 本身);主动脉夹层 → 影像本身可作金标准。
9. 结构化报告(Structured Reporting)
- CAD-RADS(Cury 2016, SCCT/ACR/NASCI 共识):冠脉 CTA 报告标准化系统——把"狭窄程度"映射为 0-5 等级,与 AI 系统兼容(Ch 26 专章)。
- DICOM Structured Reporting (SR)(Clunie 2000):标准化的报告存储格式,AI 可读。
关键结论
- 数据可用性是 AI 临床部署的最大障碍——比监管、算法、商业模式都关键。本章明确指出"well-curated 大型心血管影像数据集的缺乏是首要瓶颈"(与 Ch 3、Ch 11、Ch 49 一致)。
- 公开数据集对商业开发远远不够——多基于旧设备、样本小、协议各异、且许可证通常禁止商业用途。
- 多机构合作 + 联邦学习是趋势——但工程与合规复杂度高。Segmed 这种"中间件"平台提供"数据采购"的解决方案,但也带来经济与伦理新问题(如何对患者和数据提供医院付费?)。
- 去标识远不止"删除 DICOM 头部"——burned-in PHI、3D 重建中的面部特征、跨数据集交叉重识别都是真实风险。
- 标签价值层级决定了模型性能上限——用 FFR、组织病理、长期随访等"金标准"做标签的模型通常比仅用"放射学报告"的高。
- NLP 是从"无标签"到"标签"的关键工具——但 NLP 提取的标签继承了原报告的错误率(2-20%)。这意味着"用 NLP 提取的标签训练的 AI"可能放大原始错误——一个值得警惕的系统性问题。
- 结构化报告(CAD-RADS, DICOM SR)将放射学"AI 友好化"——是 AI 落地的"基础设施"投入。
- 质量控制本身就是"用 AI 加速 AI" 的工作——形成正反馈循环。
挑战和开放性问题
- 公开心血管影像数据集的稀缺——到 2020 年几乎没有与胸部 X 线 / 眼底图像等价规模的公开心血管数据集。Ch 8(生物样本库)会再次讨论。
- 去标识的"对抗性"风险——简单的 18 项 PHI 去除不够。商用去标识工具的稳健性需要定期审计(Aryanto 2015 比较了几个开源工具)。对抗性重识别(用一个去标识数据集 + 另一个公开数据集交叉)仍是开放威胁。
- NLP 提取标签的"错误继承"问题——放射学报告错误率 2-20%,NLP 提取的标签错误率会更高(规则法 vs RNN vs word2vec 各有偏差)。如何评估和纠正这种系统性偏差未有标准方法。
- 数据多样性的量化缺失——什么样的"多样性"才足以保证泛化?没有标准度量——通常靠经验判断。数据集"偏见审计" 是新兴研究方向。
- 跨机构合作的"经济与法律"摩擦——医院要数据费、AI 公司要独家、合作中知识产权归属不清。这比技术挑战更常拖垮项目。Ch 51(商业化)专章。
- 前瞻性标注的高成本——一个专家 1 小时标注 20-50 例冠脉病灶,每例 5-15 分钟。1 万例标注意味着 一个全职专家 1-2 年——成本 50-200 万美元。
- 结构化报告的"医生抵触"——CAD-RADS 等结构化报告需要医生改变习惯,临床采纳率低。这是社会-技术问题,不是技术问题。
- k-匿名 vs 数据利用度的矛盾——k 越大匿名性越好,但数据越粗糙(k=5 时同一分组至少 5 人)。医学数据的高维度使 k 难以调优。
- "联邦学习"在临床实践中的可操作性——Sheller 2020 综述了联邦学习在医疗中的潜力,但实际部署涉及各医院 IT 团队、隐私审查、网络稳定性,复杂度远超"算法演示"。
个人反思与批判性分析
本章作为"数据准备工程指南"是全书写得最实用的章节之一,但仍有几点值得反思:
优势: - 8 步流程图清晰可作为项目启动清单。 - HIPAA 18 项 PHI 列表的明文给出——是放射科医生/数据工程师的合规速查。 - 三大隐蔽 PHI 来源(header、burned-in、3D 面部)的提醒——是其他教材少见的"踩坑预警"。 - 标签价值三层级(图 4.2)——把"标签质量"从抽象的"好/坏"细化为可操作的层级。 - NLP 三种方法的对比(规则法 vs word2vec vs RNN)——给读者明确选择指南。 - Banerjee 2018 报告 97% 精度的具体数字——可作为读者重复实验的参考。 - 多机构合作的 Segmed 平台案例——提供了"工业界如何做"的参考。 - 与 Ch 5(数据存储/云)、Ch 6(如何构建算法)的衔接清晰。
批判与补足: 1. "标签价值三层"过于简略——实际临床中还有更多层级:① 多专家共识(减少单标注者偏差);② 仲裁者机制(专家不一致时由第三位仲裁);③ 量化标签不确定性(如 CheXpert 的"不确定"标签——Irvin 2019);④ 对抗验证(adversarial validation)——用训练集和测试集的可分性判断数据是否同分布。这些"标签质量保证"在工业界已有实践,本章只点了一笔。 2. "用 NLP 提取标签" 的系统风险未充分讨论——2-20% 的报告错误率 + NLP 自身 5-10% 的错误率 → 复合错误率 6-30%。这种"标签噪声"在训练时会向模型传递偏差。建议补充 Label Smoothing、Confident Learning、Cleanlab 等"噪声标签学习"的方法。 3. 缺"标签一致性度量"——Cohen's κ、ICC、Fleiss' κ 等多标注者一致性度量未提及。没有 κ 报告的标注研究是方法学不严谨的。 4. 缺"数据集偏见审计"工具——近年提出的 What-If Tool (WIT, Google)、Aequitas、Fairlearn 等工具本章未提。这些工具能自动检查"AI 是否对特定子群表现差"。 5. "云存储"的成本与能耗未提——4 万美元/年的云存储 + GPU 训练能耗 + 数据传输费 = 实际项目真实成本远超"开发算法"本身。建议补充"小医院如何负担"的讨论。 6. 数据生命周期管理缺失——保留多久?谁有权删除?删除后如何证明?这是 GDPR "right to be forgotten" 要求的。本章没提。 7. 未讨论"合成数据作为数据准备的一部分"——Diller 2019 (Ch 3) 的合成数据案例是训练时用,但合成数据是否能在数据准备阶段(解决"金标准不可得")也发挥作用?是新兴方向。 8. Segmed 平台的利益冲突未充分声明——本章三位作者就职 Segmed,把"多机构合作"作为推荐路径推荐读者使用 Segmed。这是编辑性偏见——一本 2022 年的书中推荐特定商业产品,会让学术读者警惕。 9. "数据访问"一节严重偏向美国视角——HIPAA、IRB 反复出现,但欧盟 GDPR、英国 HRA、中国《个人信息保护法》PIPL 等其他主要司法管辖区只在第 2 段被"点名"。这是国际化书的明显疏漏——心胸影像 AI 是全球性工作,数据合规不能只谈美国。 10. "质量控制"的自动化方法过于简略——只说"用 ML 做 ML 的 QC"——但具体方法(如 AutoML for QC、对抗样本检测、分布外检测)值得专门段落。
给作者的问题: - 在 2022 年这个时间点,公开心血管影像数据集的规模是 ChestX-ray8 (30 万) 的多少?几乎没有等价品?这是行业的结构性问题还是暂时性问题? - Segmed 平台对患者付费了吗?对数据提供医院付费了吗? 这直接影响患者和数据提供方的"道德经济"——能否在书里澄清? - 如果临床医生"故意"在报告中写错(避免责任),NLP 提取的标签会带偏差。这种"防御性医疗" 对 AI 训练的影响有多大?有任何研究量化过吗? - 联邦学习被反复宣传为"多机构合作"的解决方案,但 2017-2022 的 5 年里,有多少 AI 项目真的用联邦学习成功落地?我估计是少数——为什么?
值得复现的实践: - HIPAA 18 项 PHI 自动扫描脚本——用 PyDICOM 写一个扫描 DICOM header 的工具,标记所有 PHI 字段。 - NLP 标签提取的完整流程——用 CheXpert 报告训练一个小型 BioBERT 模型,提取 14 类胸片异常标签。 - 多标注者一致性度量——3 名放射科住院医师对 100 例冠脉 CTA 标注,取 Cohen's κ。 - 联邦学习模拟——用 Flower 或 PySyft 在 3 个"虚拟医院"上联合训练,模拟"数据不离开本地"。
重要参考文献
[X1] Willemink MJ, Koszek WA, Hardell C, Wu J, Fleischmann D, Harvey H, Folio LR, Summers RM, Rubin DL, Lungren MP. Preparing medical imaging data for machine learning. Radiology. 2020;295(1):4–15. DOI: 10.1148/radiol.2020192224. [X2] Langlotz CP, Allen B, Erickson BJ, et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 NIH/RSNA/ACR/The Academy Workshop. Radiology. 2019;291:781–91. DOI: 10.1148/radiol.2019181811. [X3] Park SH, Han K. Methodologic guide for evaluating clinical performance and effect of artificial intelligence technology for medical diagnosis and prediction. Radiology. 2018;286:800–9. DOI: 10.1148/radiol.2017172680. [X4] Aryanto KYE, Oudkerk M, van Ooijen PMA. Free DICOM de-identification tools in clinical research: functioning and safety of patient privacy. Eur Radiol. 2015;25:3685–95. DOI: 10.1007/s00330-015-3794-0. [X5] El Emam K, Dankar FK. Protecting privacy using k-anonymity. J Am Med Inform Assoc. 2008;15:627–37. DOI: 10.1197/jamia.M2716. [X6] Banerjee I, Chen MC, Lungren MP, Rubin DL. Radiology report annotation using intelligent word embeddings: applied to multi-institutional chest CT cohort. J Biomed Inform. 2018;77:11–20. DOI: 10.1016/j.jbi.2017.10.005. [X7] Banerjee I, Ling Y, Chen MC, et al. Comparative effectiveness of convolutional neural network (CNN) and recurrent neural network (RNN) architectures for radiology text report classification. Artif Intell Med. 2019;97:79–88. DOI: 10.1016/j.artmed.2018.10.004. [X8] Irvin J, Rajpurkar P, Ko M, et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. AAAI. 2019;33:590–7. (arXiv:1901.07031). [X9] Cury RC, Abbara S, Achenbach S, et al. CAD-RADSTM Coronary Artery Disease – Reporting and Data System. J Cardiovasc Comput Tomogr. 2016;10:269–81. DOI: 10.1016/j.jcct.2016.04.005. [X10] Clunie DA. DICOM structured reporting. Bangor, PA: PixelMed Publishing; 2000. (ISBN 978-096400-642-8) [X11] Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-Ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. CVPR. 2017. DOI: 10.1109/CVPR.2017.369. [X12] Soffer S, Ben-Cohen A, Shimon O, Amitai MM, Greenspan H, Klang E. Convolutional neural networks for radiologic images: a radiologist's guide. Radiology. 2019;290:590–606. DOI: 10.1148/radiol.2018180547.