跳转至

第 43 章 肺癌筛查与结节检测:AI 的角色(Lung Cancer Screening and Nodule Detection: The Role of Artificial Intelligence)

作者

  • Sunyi Zheng, MSc —— Department of Radiation Oncology, University Medical Center Groningen/University of Groningen, The Netherlands。
  • Peter M. A. van Ooijen, MSc, PhD, CPHIMS —— Department of Radiation Oncology and Data Science Center in Health, UMCG。
  • Matthijs Oudkerk, MD, PhD, FNASCI, EBCR(通讯作者)—— Faculty of Medical Sciences, University of Groningen;Institute for Diagnostic Accuracy, Groningen。

本章位于 Part IV 胸部应用部分,承接第 42 章(COVID-19)后,转向肺癌筛查与结节检测——AI 在胸部影像最成熟的领域。属于"应用 + 综述"性质的章节,重点是 AI 在肺结节检测上的方法学演进与临床落地。Oudkerk 团队是 NELSON 试验(欧洲最大肺癌筛查试验)的核心。

内容概述

肺癌是 2017 年癌症相关死亡的首要死因,5 年生存率 IV 期仅 4%,早期检测显著提高生存率。CT 筛查 + AI 辅助是当前肺癌早筛的核心范式。本章按"肺癌筛查 → AI 结节检测 → 经典 ML → DL → 影响性能的因素"组织:

  1. 肺癌筛查试验
  2. NLST(美国,2002):LDCT vs. 胸片,53,454 例,肺癌死亡 HR 0.80(p < 0.01)。
  3. NELSON(荷兰-比利时,2003):15,789 例,体积 LDCT vs. 无筛查,男性 10 年死亡 HR 0.76(p = 0.01)、女性 0.67。
  4. UKLS(英国):4,055 例,> 80% 早期肺癌可检出。
  5. MILD(意大利):2,376 例,10 年 LDCT 筛查 HR 0.61(p < 0.02)。
  6. Lung-RADS:美国放射学会标准,2014 / 2019 版本规范 LDCT 阳性定义。
  7. AI 结节检测
  8. 经典 ML(1990s–2000s):特征工程 + 阈值 + 分类器
  9. DL(2010s+):CNN 自动学特征
  10. 公共数据集与挑战赛
  11. LIDC/IDRI(1,018 CT,7 中心)
  12. NLST 数据集(26,254 LDCT)
  13. LUNA16 挑战赛(888 CT)
  14. Kaggle DSB 2017
  15. LNDb 2019(294 CT,Porto)
  16. 性能评估:敏感度 70–90%、FP 0.5–15 / 扫描

核心方程与概念

1. AI 结节检测系统的五阶段

  1. 图像检索(PACS)
  2. 预处理(窗宽窗位)
  3. (可选)肺实质分割
  4. 结节候选检测(找尽可能多候选)
  5. 假阳性减少(去伪存真)

2. ANODE09 / LUNA16 / LIDC-IDRI 数据集

  • ANODE09:55 CT(NELSON 子集),用于基准 6 个 AI 系统
  • LIDC-IDRI:1,018 胸 CT,7 中心,是 DL 训练的标准数据集
  • LUNA16:888 CT,从 LIDC-IDRI 选出薄层切片,DL 比赛标准
  • NLST:26,254 LDCT
  • LNDb:294 CT(Porto,2019,Fleischner 指南基础)

3. 经典 ML vs. DL

  • 经典 ML:特征工程(HU、形状、纹理)+ 阈值 + 分类器(SVM、随机森林)。敏感度 70–90%,FP 0.5–15 / 扫描。
  • DL:CNN + 大规模数据 + 端到端训练。性能通常优于经典 ML。

4. 关键论文总结

研究 方法 数据 性能
ANODE09 6 系统组合 多系统 55 NELSON CT 敏感 20.8% → 72.5% (1 FP/scan)
多尺度 Laplacian of Gaussian + DL FP 减少 DL 888 CT 100% 敏感,FP 50.3/scan
LUNA16 挑战赛冠军 3D CNN 888 CT 顶级性能
NLST Lung-RADS 2014 视觉标准 26,254 LDCT FP 26.6% → 12.8%

5. 关键概念辨析

  • NLST vs. NELSON vs. MILD:美国 vs. 欧洲 vs. 意大利的"参数差异"——NLST 用直径、NELSON 用体积、MILD 用更严的体积阈值。
  • Lung-RADS 2014 vs. 2019:早期只看直径 → 后期结合直径 + 体积,更精准。
  • LIDC/IDRI vs. LUNA16 vs. NLST:研究型数据集(标注精细)vs. 筛查数据集(量大、临床真实)。
  • 敏感度 vs. FP 平衡:临床 AI 工具需"高敏感 + 低 FP"——Lung-RADS 通过"分级" 实现此平衡。
  • AI 在筛查中的角色:辅助 / 替代 / 增强——本章定位为"辅助"。
  • "CT 替代胸片" vs. "AI 替代医生":NLST 证明 LDCT > 胸片,但 LDCT 解读需 AI 辅助(人手不足)。
  • 跨数据集泛化:训练在 LIDC/IDRI,测试在 NELSON / NLST,跨数据集性能可能下降。

关键结论

  • 肺癌 5 年生存率 IV 期 4%,早筛意义重大。
  • NLST(美国 2002)、NELSON(欧洲 2003)、UKLS(英国)、MILD(意大利)四大筛查试验证明 LDCT 降低死亡 20–39%。
  • Lung-RADS 标准化阳性定义,2014 → 2019 版本演进(直径 → 直径 + 体积)。
  • AI 结节检测系统五阶段:图像检索、预处理、(肺分割)、候选检测、FP 减少。
  • 经典 ML:敏感 70–90%、FP 0.5–15 / 扫描。
  • DL:CNN + 大规模数据,性能通常优于经典 ML。
  • 公共数据集:LIDC/IDRI 1,018 CT、LUNA16 888 CT、NLST 26,254 LDCT、LNDb 294 CT。
  • ANODE09 6 系统组合敏感 20.8% → 72.5% (1 FP/scan)——"系统集成"显著提升性能。
  • AI 在肺癌筛查上已部分商业化(Riverain ClearRead、Siemens AI-Rad Companion Chest CT、Lunit INSIGHT 等)。

挑战和开放性问题

  • 跨数据集泛化:LIDC/IDRI 训练,NLST / NELSON 测试,性能可能下降。
  • 小结节检测难:< 4 mm 结节敏感度低。
  • FP 控制难:血管分支、瘢痕、伪影等易误判为结节。
  • 临床整合路径:AI 工具集成到 PACS + 放射工作流需工程 + 监管支持。
  • Lung-RADS 的"AI 适应性":AI 工具输出与 Lung-RADS 分类的对应需明确。
  • "假阴性" 风险:AI 漏诊的责任问题。
  • "过度诊断" 风险:AI 检出惰性癌可能引发不必要治疗。
  • 筛查项目的"成本效益":LDCT + AI 工具的成本 vs. 收益仍需卫生经济学评估。
  • 国际泛化:AI 工具多训练于欧美 / 中国,跨人群泛化需验证。
  • 罕见结节类型:非典型磨玻璃结节等罕见类型训练数据少。
  • 法规与责任:AI 工具给出诊断的"医疗决策"性质需要 FDA / NMPA 严格监管。
  • 临床医生信任度:AI 工具被广泛接受仍需时间。
  • "AI 替代医生" vs. "AI 辅助医生":临床定位仍需明确。

个人反思与批判性分析

  • 作者团队的"荷兰 UMCG + Groningen" 视角:Oudkerk 是 NELSON 试验核心 PI,Zheng 来自 UMCG 放射肿瘤科——本章是"欧洲视角" 的肺癌筛查综述,NELSON 试验是其自豪成果。
  • NLST vs. NELSON 的"代际差异":NLST(2002 启动)用直径,NELSON(2003 启动)用体积——欧洲比美国早 5–10 年采用"体积" 评估。这是方法学的代际差异,AI 工具的"特征" 也需相应演进。
  • "AI 在肺结节检测上最成熟" 的现实:相比其他胸/肺 AI 主题,肺结节检测是 AI 最成熟领域——LUNA16、DSB 等公开挑战赛推动了 2010s 末的快速进步。这种"成熟度差异" 反映"研究热度 + 数据规模 + 商业化推动" 三重因素。
  • "经典 ML vs. DL" 的代际价值:经典 ML 时代(1990s–2000s)的肺结节检测敏感度 70–90%——这与 DL 时代(2010s+)的性能相当。读者应意识到"DL 不一定全面优于经典 ML",在"特征工程成熟" 的任务上,经典 ML 仍可竞争。
  • "ANODE09 系统组合" 的启示:6 个 AI 系统组合敏感度从 20.8% → 72.5%——这是"集成学习" 的早期实证。在 LUNA16 / DSB 时代,"集成 + DL" 进一步提升性能。
  • "Lung-RADS 标准化" 的"双面性":标准化降低假阳性(26.6% → 12.8%)但同时降低敏感度——这是"规范与灵活" 的权衡。AI 工具需与 Lung-RADS 对接才能进入临床。
  • "FP 减少" 阶段的"工程挑战":候选检测易"过召回"(高敏感、高 FP),FP 减少是"瓶颈"——这需要大规模标注数据 + 高级分类器。
  • "AI 工具商业化" 的领跑者:Riverain ClearRead(FDA 510(k))、Siemens AI-Rad Companion、Lunit INSIGHT、推想科技 InferRead、联影智能等已商业化部署。这是医学 AI 商业化"最早" 领域之一。
  • "AI 替代医生" 的恐惧 vs. 现实:AI 在肺结节检测上不是"替代医生"——是"减少医生漏诊、减少医生工作量" 的工具。但"减少医生工作量" 也意味着"减少医生培养需求"——这是医疗人力的长期影响。
  • "中国 vs. 全球" 的 AI 工具代差:中国推想科技、联影智能等在肺结节 AI 上快速商业化,与欧美厂商形成竞争——但全球市场的"FDA / CE 认证" 仍是挑战。
  • "AI 万能" vs. "AI 仅辅助":本章在 AI 工具性能上乐观(已部分商业化),在跨数据集泛化、罕见结节、临床整合上保守(仍是开放问题)。这种"该强则强、该弱则弱" 是肺结节 AI 的工程现实。
  • "早筛 vs. 诊断" 的 AI 工具差异:早筛要求"高敏感"(漏诊代价高),诊断要求"高特异"(误诊代价高)——AI 工具需在不同场景调优。
  • 与第 40-42、44-48 章的协同:本章是肺结节 / 肺癌筛查主题专项,与 COPD(Ch 40)、ILD(Ch 41)、COVID-19(Ch 42)、肺癌表征(Ch 44)、肺血管(Ch 46)形成"胸/肺疾病 AI" 完整图景。读者通过对比可学会"AI 在不同胸/肺疾病的共性与差异"。

重要参考文献

  • [X1] Siegel RL, Miller KD, Jemal A. Cancer statistics, 2020. CA Cancer J Clin. 2020;70(1):7-30.
  • [X2] National Cancer Institute. SEER Cancer Statistics Review, 1975-2017.
  • [X3] Henschke CI, Yankelevitz DF, Libby DM, et al. Survival of patients with stage I lung cancer detected on CT screening. N Engl J Med. 2006;355(17):1763-71.
  • [X8] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med. 2011;365(5):395-409.
  • [X9] de Koning HJ, van der Aalst CM, de Jong PA, et al. Reduced lung-cancer mortality with volume CT screening in a randomized trial. N Engl J Med. 2020;382(6):503-13.
  • [X10] Field JK, Duffy SW, Baldwin DR, et al. The UK Lung Cancer Screening Trial: a pilot randomised controlled trial of low-dose computed tomography screening for the detection of lung cancer. Health Technol Assess. 2016;20(40):1-146.
  • [X11] Pastorino U, Sverzellati N, Sestini S, et al. Ten-year results of the Multicentric Italian Lung Detection trial demonstrate the safety and efficacy of biennial lung cancer screening. Eur J Cancer. 2019;118:142-8.
  • [X12] Pinsky PF, Gierada DS, Black W, et al. Performance of Lung-RADS in the National Lung Screening Trial. Ann Intern Med. 2015;162(7):485-91.
  • [X13] American College of Radiology. Lung-RADS v1.1. 2019.
  • [X14] Oudkerk M, Devaraj A, Vliegenthart R, et al. European position statement on lung cancer screening. Lancet Oncol. 2017;18(12):e754-66.
  • [X15] Pastorino U, Silva M, Sestini S, et al. Prolonged lung cancer screening reduced 10-year mortality in the MILD trial. Ann Oncol. 2019;30(7):1162-9.
  • [X22] van Ginneken B, Armato SG 3rd, de Hoop B, et al. Comparing and combining algorithms for computer-aided detection of pulmonary nodules in computed tomography scans: the ANODE09 study. Med Image Anal. 2010;14(6):707-22.
  • [X24] Armato SG 3rd, McLennan G, Bidaut L, et al. The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): a completed reference database of lung nodules on CT scans. Med Phys. 2011;38(2):915-31.
  • [X25] National Lung Screening Trial Research Team. Data from the National Lung Screening Trial (NLST) [Data set]. 2013.
  • [X26] Setio AAA, Traverso A, de Bel T, et al. Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the LUNA16 challenge. Med Image Anal. 2017;42:1-13.
  • [X27] Kaggle. Data Science Bowl 2017. 2017.
  • [X28] Pedrosa J, Aresta G, Ferreira C, et al. LNDb: a lung nodule database on computed tomography. arXiv:191111325. 2019.
  • [X29] MacMahon H, Naidich DP, Goo JM, et al. Guidelines for management of incidental pulmonary nodules in adults. Radiology. 2017;284(1):228-43.