第10章医学影像中的结构化报告：人工智能的角色（Structured Reporting in Medical Imaging: The Role of Artificial Intelligence）

作者

Peter D. Filev, MD（通讯作者）— Department of Radiology and Imaging Sciences, Emory University School of Medicine, Atlanta, GA. Emory 心脏胸腔影像研究团队成员。
Arthur E. Stillman, MD, PhD — 同单位。

本章是 Part II 的"AI × 工作流改造"开篇——把 Ch 4 提到的"结构化报告"与"AI"深度结合。作者团队是 Emory（同时也是本书主编 De Cecco 的机构），提供"放射学实践"视角。

内容概述

本章是结构化报告 + AI 整合的综述。核心论点：(1) 结构化报告是 AI 时代放射学的"基础设施"——相比自由文本，结构化报告提供机器可读的、明确标注的训练数据；(2) 5 大胸心血管 RADS 系统——Lung-RADS（肺结节）、TI-RADS（甲状腺）、CAD-RADS（冠脉）、ILD-RADS（间质性肺病）、CO-RADS（COVID-19）——每个都是结构化报告的成功案例；(3) Lung-RADS 的具体效果：假阳性率从 26.6% → 12.8%（基线筛查）、PPV 从 6.9% → 17.3%——结构化报告 + 阈值提升显著改善了诊断准确性；(4) AI 与结构化报告的协同——AI 可自动填充报告字段（如冠脉钙化评分、CMR 自动分割后的容积），结构化报告提供训练数据；二者形成正反馈循环；(5) 临床决策支持（CDS）的"全 AI 化"——未来报告可能由 AI 完全填写，放射科医生只做"review and sign"——这是行业的长期方向。

核心方程与概念

0. 几个量化表达

Bayes 视角下 Lung-RADS 阈值提升的 PPV 改进（可由 Bayes 公式估算）： $$\mathrm{PPV} = \frac{\mathrm{Se} \cdot P}{\mathrm{Se} \cdot P + (1 - \mathrm{Sp}) \cdot (1 - P)}$$ 阈值从 4 mm → 6 mm → 实际"有效灵敏度" $\mathrm{Se}$ 下降约 9 个百分点（93.5% → 84.9%），但特异度 $\mathrm{Sp}$ 显著提升（如从约 73% → 87%），在低患病率（如 NLST 中肺癌约 1%）人群中，PPV 大幅提升（6.9% → 17.3%，约 2.5×）。
Lung-RADS 改善的假阳性率（Pinsky 2015 回顾性研究，26,722 例 LDCT）：
基线筛查：Lung-RADS 12.8% vs NLST 26.6%（降低 52%）
后续筛查：5.3% vs 21.8%
灵敏度代价：基线 93.5% → 84.9%；后续 93.8% → 78.6%
Lung-RADS PPV 改善（McKee 2015, 2180 例）：6.9% → 17.3%（提高 2.5 倍）。
AI 辅助 CAD-RADS 分类准确率（Muscogiuri 2020, 288 例 CCTA）：60-86%。CAD-RADS 0 vs >0 二分最可靠。
CO-RADS AUC（Prokop 2020, 105 chest CT, 8 阅片者）：0.91（vs RT-PCR）。
COVNet 灵敏度/特异度（Li 2020, 4356 chest CT）：90% / 96%（vs 其他社区获得性肺炎）。

1. 结构化报告的 3 个层级

L1（基础）：段落 + 副标题（检查协议、临床史、影像所见、印象）。
L2（中级）：按解剖区域（胸部 CT 分纵隔、肺/胸膜、骨/软组织）。
L3（高级）：使用标准化词典（RadLex 是 RSNA 主导的词典体系）。

2. 5 大心胸 RADS 系统

Lung-RADS（ACR 2014 颁布，2019 v1.1）：0 (incomplete) → 1 (negative) → 2 (benign) → 3 (probably benign) → 4A (suspicious) → 4B/4X (very suspicious) → S (other)。核心阈值 4→6 mm。
TI-RADS（ACR 2017）：基于 5 类 US 特征（成分、回声、形状、边缘、局灶性强回声）打 0-3 分。TR1 (benign) → TR5 (highly suspicious)。Wildman-Tobriner 2019 用 AI 优化 TI-RADS：在 100 例测试集上显著提高特异度（保持灵敏度）。
CAD-RADS（SCCT/ACR/NASCI 2016）：0% → 1-24% → 25-49% → 50-69% (moderate) → 70-99% (severe) → left main >50% / 3-vessel (severe) → 100% (total occlusion)。每级对应不同处理建议（"无需进一步评估" → "建议 ICA 紧急血管造影"）。修饰符 N（nondiagnostic）+ V（vulnerable plaque）。
ILD-RADS（2019）：5 类报告模板，区分 UIP vs non-IPF 纤维化。包含具体特征：牵拉性支气管扩张、蜂窝、镶嵌衰减、网格、纤维化分布等。
CO-RADS（Prokop 2020）：0 (not interpretable) → 1 (very low) → 2 (low) → 3 (equivocal) → 4 (high) → 5 (very high) → 6 (proven by RT-PCR)。

3. AI 与结构化报告的协同机制

AI 自动填充报告字段：
CMR 分割 → 自动容积、EF 计算 → 填入结构化报告
冠脉钙化评分 → 自动填入 CAD-RADS 报告
肺结节检测器 → 自动定位 + 测量 → 填入 Lung-RADS
LGE 后处理 → 17 节段自动评分 → 填入 CMR 报告
结构化报告提供训练数据：
"ILD-RADS 1: 典型 UIP" → 标签 1
"特征：蜂窝、牵拉性支气管扩张、基底层分布" → 特征向量
→ 可直接用于训练 CNN/Radiomics 模型
CDS（Clinical Decision Support）的演进：
阶段 1：放射科医生手填结构化字段
阶段 2：AI 提供建议，医生填字段
阶段 3：AI 自动填字段，医生只 review + sign

关键结论

结构化报告是 AI 的"前置基础设施"——没有它，AI 难以从报告中获取高质量训练数据。
5 大 RADS 系统的临床效用已验证——Lung-RADS 减少 52% 假阳性、TI-RADS 减少不必要活检、CAD-RADS 提高临床沟通——都是"数据驱动"的结构化。
结构化报告的"清单效应"——模板强制医生评估所有必要元素，降低漏诊（如肺结节筛查的 4-6 mm 阈值）。
AI 自动化填充是未来 5-10 年的明确趋势——但医生 review 仍是必需（法律责任 + 边缘案例）。
RSNA 的 270+ 模板库（www.radreport.org）是结构化报告的"开源资源"——是 AI 系统集成的标准接口。
RadLex 词典是 AI 自然语言处理的"语义基础"——同义词映射让 NLP 提取标签成为可能。
CDS + AI 整合是临床决策的"未来形态"——但如何避免"自动化偏见"（医生过度信任 AI 建议）是社会-技术问题。

挑战和开放性问题

结构化报告的"医生抵触"——填字段比写自由文本慢且繁琐——临床采纳率低。
AI 错误传播——AI 自动填充的字段若出错，医生可能不察觉（"automation bias"）。如何让医生保持警觉？
"模板僵化"——结构化模板可能无法描述罕见发现——需要"自由文本补充"机制。
跨机构 RADS 不一致——ACR Lung-RADS vs Fleischner Society vs Lung-RADS 1.1——同一患者可能得到不同类别。
"AI 自动 CAD-RADS" 的法律责任——AI 错分类导致延误治疗，谁负责？医院 / AI 厂商 / 医生？
数据孤岛——结构化报告即使在一家医院完整，跨机构聚合仍困难（不同 RADS 版本、不同 RadLex 映射）。
模板 vs 自由文本的折中——许多科室采用"结构化 + 自由文本补充"的混合模式，但 NLP 处理仍困难。
"AI 填充的字段" 的可审计性——监管者如何审计"AI 自动填的字段"是否符合临床标准？
RADS 系统的"过度诊断"风险——Lung-RADS 阈值提高后漏诊4-6 mm 结节，可能延误早期癌症。
AI 模型对罕见病的"模板外"情况——结构化模板可能不覆盖某些罕见 RADS 子类，AI 难处理。

个人反思与批判性分析

本章作为"AI + 结构化报告"主题写得清晰、有具体临床证据。反思点：

优势： - 5 大 RADS 系统的具体临床数据（Pinsky 2015, McKee 2015, Basha 2019）——可直接被读者引用。 - "结构化报告作为 AI 基础设施"的论点有图 10.1 的清晰示例（UIP vs 结节病分类训练流程）。 - AI 自动填充的具体例子（CMR 分割、LGE 评分、冠脉钙化）——是后续章节的伏笔。 - Wildman-Tobriner 2019 的"AI 优化 TI-RADS"是少见的"AI 改进现有规则"案例，而非"AI 替代规则"。

批判与补足： 1. "结构化报告采纳率"未充分讨论——放射科医生对模板的抵触（"太慢"）是真实障碍。本章假设医生会接受模板，没数据。 2. AI 自动填充的"错误检测"机制不足——如果 AI 把 EF 算成 25%（正确 50%），医生可能漏看。需要"highlight unusual values"的红黄绿三色提示。 3. RADS 系统的"分类失败"案例缺失——ILDL-RADS 在临床试验外的真实使用中有多少不适用？需要失败案例分析。 4. "AI + 结构化报告"的真实世界证据——除 Wildman-Tobriner 2019 外，本章几乎没有其他"AI 改造 RADS"的案例——这一领域仍处早期。 5. 跨语言/跨国标准化——RadLex 是英文，中文 / 阿拉伯语 / 西班牙语 RADS 系统的国际化进展未提。 6. "全 AI 填充"的法律框架空白——美国 FDA 2020 才把"自适应 AI"列入监管路径。医生签 AI 填的报告是否构成"医疗行为"？法律灰色地带。 7. AI 自动报告的"医生时间节省"实际数据——Rao 2019 等研究报道 AI 自动报告可节省 30-50% 阅片时间，但是否影响报告准确性、是否减少医生职业满足感都未讨论。 8. 缺"结构化报告的元数据利用"——除填字段外，结构化报告的元数据（时间戳、版本、签字人）可用于放射科工作流优化（如"哪个医生擅长看哪类疾病"）——这是医疗管理学的机会。9. RADS 系统的"AI 改造"案例稀少——除 TI-RADS (Wildman-Tobriner 2019) 外，几乎没有"Lung-RADS / CAD-RADS / ILD-RADS 的 AI 增强"案例。这是 2022 年后 RADS 系统的真正演化方向。10. 多语种 RADS 系统——中文 RADS 系统（如"中国肺结节 Lung-RADS 本土化"）的发展未提。这是中国放射学界的机会。11. "Lung-RADS 阈值提高" 的伦理——漏诊 4-6 mm 结节 = 早期癌症延误。医学伦理如何平衡"减少假阳性"与"不漏诊早期"？

给作者的问题： - 在 2022 年这个时间点，美国放射科医生对结构化报告的实际采纳率是多少？5%? 50%? 90%? - AI 自动填充 + 医生 review的混合模式中，医生实际发现 AI 错误的频率是多少？自动化偏见风险如何量化？ - "全 AI 报告"（医生只签字）是否真的能减轻医生负担？还是会让医生失去"从报告中学习"的机会？ - RADS 系统的"过度诊断 vs 漏诊"权衡量化方法是什么？AUC 还是 DCA？

值得复现的实践： - 写一个简单的"自动 Lung-RADS 分类器"：用 LIDC-IDRI 数据集训练 ResNet18，输出 1-4A 类别。 - 实现"AI 字段自动填充"：用 OpenCV + PyDICOM 提取 CT 钙化评分 → 自动写入 DICOM SR 报告。 - 评估结构化报告 vs 自由文本报告的"NLP 标签提取准确率"——用 CheXpert 报告做对比。 - 做一个医生问卷：模板 vs 自由文本的"主观工作负荷"对比。

重要参考文献

[X1] Kahn CE Jr, Langlotz CP, Burnside ES, et al. Toward best practices in radiology reporting. Radiology. 2009;252(3):852–6. DOI: 10.1148/radiol.2523090192. [X2] Langlotz CP. RadLex: a new method for indexing online educational materials. Radiographics. 2006;26(6):1595–7. DOI: 10.1148/rg.266065168. [X3] Pinsky PF, Gierada DS, Black W, et al. Performance of Lung-RADS in the National Lung Screening Trial. Ann Intern Med. 2015;162(7):485–91. DOI: 10.7326/M14-2086. [X4] McKee BJ, Regis SM, McKee AB, Flacke S, Wald C. Performance of ACR Lung-RADS in a clinical CT lung screening program. J Am Coll Radiol. 2015;12(3):273–6. DOI: 10.1016/j.jacr.2014.08.019. [X5] Wildman-Tobriner B, Buda M, Hoang JK, et al. Using AI to revise ACR TI-RADS risk stratification of thyroid nodules. Radiology. 2019;292(1):112–9. DOI: 10.1148/radiol.2019182128. [X6] Cury RC, Abbara S, Achenbach S, et al. CAD-RADS: an expert consensus document of SCCT, ACR and NASCI. JACC Cardiovasc Imaging. 2016;9(9):1099–113. DOI: 10.1016/j.jcmg.2016.05.001. [X7] Basha MAA, Aly SA, Ismail AAA, Bahaaeldin HA, Shehata SM. The validity and applicability of CAD-RADS in the management of patients with coronary artery disease. Insights Imaging. 2019;10(1):117. DOI: 10.1186/s13244-019-0806-7. [X8] Muscogiuri G, Chiesa M, Trotta M, et al. Performance of a deep learning algorithm for the evaluation of CAD-RADS classification with CCTA. Atherosclerosis. 2020;294:25–32. DOI: 10.1016/j.atherosclerosis.2019.12.001. [X9] Prokop M, van Everdingen W, van Rees VT, et al. CO-RADS: a categorical CT assessment scheme for patients with suspected COVID-19. Radiology. 2020;296:201473. DOI: 10.1148/radiol.2020201473. [X10] Li L, Qin L, Xu Z, et al. Using artificial intelligence to detect COVID-19 and community-acquired pneumonia based on pulmonary CT. Radiology. 2020;296(2):E65–71. DOI: 10.1148/radiol.2020200905. [X11] Berkowitz EA, Bernheim A, Little BP. Introducing ILD-RADS: a pilot study of an interstitial lung disease standardized reporting template. J Am Coll Radiol. 2019;16(9 Pt A):1169–72. DOI: 10.1016/j.jacr.2019.04.006. [X12] Pinto Dos Santos D, Baessler B. Big data, artificial intelligence, and structured reporting. Eur Radiol Exp. 2018;2(1):42. DOI: 10.1186/s41747-018-0071-1.

第10章 医学影像中的结构化报告：人工智能的角色（Structured Reporting in Medical Imaging: The Role of Artificial Intelligence）

作者