第 43 章肺癌筛查与结节检测：AI 的角色（Lung Cancer Screening and Nodule Detection: The Role of Artificial Intelligence）

作者

Sunyi Zheng, MSc —— Department of Radiation Oncology, University Medical Center Groningen/University of Groningen, The Netherlands。
Peter M. A. van Ooijen, MSc, PhD, CPHIMS —— Department of Radiation Oncology and Data Science Center in Health, UMCG。
Matthijs Oudkerk, MD, PhD, FNASCI, EBCR（通讯作者）—— Faculty of Medical Sciences, University of Groningen；Institute for Diagnostic Accuracy, Groningen。

本章位于 Part IV 胸部应用部分，承接第 42 章（COVID-19）后，转向肺癌筛查与结节检测——AI 在胸部影像最成熟的领域。属于"应用 + 综述"性质的章节，重点是 AI 在肺结节检测上的方法学演进与临床落地。Oudkerk 团队是 NELSON 试验（欧洲最大肺癌筛查试验）的核心。

内容概述

肺癌是 2017 年癌症相关死亡的首要死因，5 年生存率 IV 期仅 4%，早期检测显著提高生存率。CT 筛查 + AI 辅助是当前肺癌早筛的核心范式。本章按"肺癌筛查 → AI 结节检测 → 经典 ML → DL → 影响性能的因素"组织：

肺癌筛查试验：
NLST（美国，2002）：LDCT vs. 胸片，53,454 例，肺癌死亡 HR 0.80（p < 0.01）。
NELSON（荷兰-比利时，2003）：15,789 例，体积 LDCT vs. 无筛查，男性 10 年死亡 HR 0.76（p = 0.01）、女性 0.67。
UKLS（英国）：4,055 例，> 80% 早期肺癌可检出。
MILD（意大利）：2,376 例，10 年 LDCT 筛查 HR 0.61（p < 0.02）。
Lung-RADS：美国放射学会标准，2014 / 2019 版本规范 LDCT 阳性定义。
AI 结节检测：
经典 ML（1990s–2000s）：特征工程 + 阈值 + 分类器
DL（2010s+）：CNN 自动学特征
公共数据集与挑战赛：
LIDC/IDRI（1,018 CT，7 中心）
NLST 数据集（26,254 LDCT）
LUNA16 挑战赛（888 CT）
Kaggle DSB 2017
LNDb 2019（294 CT，Porto）
性能评估：敏感度 70–90%、FP 0.5–15 / 扫描

核心方程与概念

1. AI 结节检测系统的五阶段

图像检索（PACS）
预处理（窗宽窗位）
（可选）肺实质分割
结节候选检测（找尽可能多候选）
假阳性减少（去伪存真）

2. ANODE09 / LUNA16 / LIDC-IDRI 数据集

ANODE09：55 CT（NELSON 子集），用于基准 6 个 AI 系统
LIDC-IDRI：1,018 胸 CT，7 中心，是 DL 训练的标准数据集
LUNA16：888 CT，从 LIDC-IDRI 选出薄层切片，DL 比赛标准
NLST：26,254 LDCT
LNDb：294 CT（Porto，2019，Fleischner 指南基础）

3. 经典 ML vs. DL

经典 ML：特征工程（HU、形状、纹理）+ 阈值 + 分类器（SVM、随机森林）。敏感度 70–90%，FP 0.5–15 / 扫描。
DL：CNN + 大规模数据 + 端到端训练。性能通常优于经典 ML。

4. 关键论文总结

研究	方法	数据	性能
ANODE09 6 系统组合	多系统	55 NELSON CT	敏感 20.8% → 72.5% (1 FP/scan)
多尺度 Laplacian of Gaussian + DL FP 减少	DL	888 CT	100% 敏感，FP 50.3/scan
LUNA16 挑战赛冠军	3D CNN	888 CT	顶级性能
NLST Lung-RADS 2014	视觉标准	26,254 LDCT	FP 26.6% → 12.8%

5. 关键概念辨析

NLST vs. NELSON vs. MILD：美国 vs. 欧洲 vs. 意大利的"参数差异"——NLST 用直径、NELSON 用体积、MILD 用更严的体积阈值。
Lung-RADS 2014 vs. 2019：早期只看直径 → 后期结合直径 + 体积，更精准。
LIDC/IDRI vs. LUNA16 vs. NLST：研究型数据集（标注精细）vs. 筛查数据集（量大、临床真实）。
敏感度 vs. FP 平衡：临床 AI 工具需"高敏感 + 低 FP"——Lung-RADS 通过"分级" 实现此平衡。
AI 在筛查中的角色：辅助 / 替代 / 增强——本章定位为"辅助"。
"CT 替代胸片" vs. "AI 替代医生"：NLST 证明 LDCT > 胸片，但 LDCT 解读需 AI 辅助（人手不足）。
跨数据集泛化：训练在 LIDC/IDRI，测试在 NELSON / NLST，跨数据集性能可能下降。

关键结论

肺癌 5 年生存率 IV 期 4%，早筛意义重大。
NLST（美国 2002）、NELSON（欧洲 2003）、UKLS（英国）、MILD（意大利）四大筛查试验证明 LDCT 降低死亡 20–39%。
Lung-RADS 标准化阳性定义，2014 → 2019 版本演进（直径 → 直径 + 体积）。
AI 结节检测系统五阶段：图像检索、预处理、（肺分割）、候选检测、FP 减少。
经典 ML：敏感 70–90%、FP 0.5–15 / 扫描。
DL：CNN + 大规模数据，性能通常优于经典 ML。
公共数据集：LIDC/IDRI 1,018 CT、LUNA16 888 CT、NLST 26,254 LDCT、LNDb 294 CT。
ANODE09 6 系统组合敏感 20.8% → 72.5% (1 FP/scan)——"系统集成"显著提升性能。
AI 在肺癌筛查上已部分商业化（Riverain ClearRead、Siemens AI-Rad Companion Chest CT、Lunit INSIGHT 等）。

挑战和开放性问题

跨数据集泛化：LIDC/IDRI 训练，NLST / NELSON 测试，性能可能下降。
小结节检测难：< 4 mm 结节敏感度低。
FP 控制难：血管分支、瘢痕、伪影等易误判为结节。
临床整合路径：AI 工具集成到 PACS + 放射工作流需工程 + 监管支持。
Lung-RADS 的"AI 适应性"：AI 工具输出与 Lung-RADS 分类的对应需明确。
"假阴性" 风险：AI 漏诊的责任问题。
"过度诊断" 风险：AI 检出惰性癌可能引发不必要治疗。
筛查项目的"成本效益"：LDCT + AI 工具的成本 vs. 收益仍需卫生经济学评估。
国际泛化：AI 工具多训练于欧美 / 中国，跨人群泛化需验证。
罕见结节类型：非典型磨玻璃结节等罕见类型训练数据少。
法规与责任：AI 工具给出诊断的"医疗决策"性质需要 FDA / NMPA 严格监管。
临床医生信任度：AI 工具被广泛接受仍需时间。
"AI 替代医生" vs. "AI 辅助医生"：临床定位仍需明确。

个人反思与批判性分析

作者团队的"荷兰 UMCG + Groningen" 视角：Oudkerk 是 NELSON 试验核心 PI，Zheng 来自 UMCG 放射肿瘤科——本章是"欧洲视角" 的肺癌筛查综述，NELSON 试验是其自豪成果。
NLST vs. NELSON 的"代际差异"：NLST（2002 启动）用直径，NELSON（2003 启动）用体积——欧洲比美国早 5–10 年采用"体积" 评估。这是方法学的代际差异，AI 工具的"特征" 也需相应演进。
"AI 在肺结节检测上最成熟" 的现实：相比其他胸/肺 AI 主题，肺结节检测是 AI 最成熟领域——LUNA16、DSB 等公开挑战赛推动了 2010s 末的快速进步。这种"成熟度差异" 反映"研究热度 + 数据规模 + 商业化推动" 三重因素。
"经典 ML vs. DL" 的代际价值：经典 ML 时代（1990s–2000s）的肺结节检测敏感度 70–90%——这与 DL 时代（2010s+）的性能相当。读者应意识到"DL 不一定全面优于经典 ML"，在"特征工程成熟" 的任务上，经典 ML 仍可竞争。
"ANODE09 系统组合" 的启示：6 个 AI 系统组合敏感度从 20.8% → 72.5%——这是"集成学习" 的早期实证。在 LUNA16 / DSB 时代，"集成 + DL" 进一步提升性能。
"Lung-RADS 标准化" 的"双面性"：标准化降低假阳性（26.6% → 12.8%）但同时降低敏感度——这是"规范与灵活" 的权衡。AI 工具需与 Lung-RADS 对接才能进入临床。
"FP 减少" 阶段的"工程挑战"：候选检测易"过召回"（高敏感、高 FP），FP 减少是"瓶颈"——这需要大规模标注数据 + 高级分类器。
"AI 工具商业化" 的领跑者：Riverain ClearRead（FDA 510(k)）、Siemens AI-Rad Companion、Lunit INSIGHT、推想科技 InferRead、联影智能等已商业化部署。这是医学 AI 商业化"最早" 领域之一。
"AI 替代医生" 的恐惧 vs. 现实：AI 在肺结节检测上不是"替代医生"——是"减少医生漏诊、减少医生工作量" 的工具。但"减少医生工作量" 也意味着"减少医生培养需求"——这是医疗人力的长期影响。
"中国 vs. 全球" 的 AI 工具代差：中国推想科技、联影智能等在肺结节 AI 上快速商业化，与欧美厂商形成竞争——但全球市场的"FDA / CE 认证" 仍是挑战。
"AI 万能" vs. "AI 仅辅助"：本章在 AI 工具性能上乐观（已部分商业化），在跨数据集泛化、罕见结节、临床整合上保守（仍是开放问题）。这种"该强则强、该弱则弱" 是肺结节 AI 的工程现实。
"早筛 vs. 诊断" 的 AI 工具差异：早筛要求"高敏感"（漏诊代价高），诊断要求"高特异"（误诊代价高）——AI 工具需在不同场景调优。
与第 40-42、44-48 章的协同：本章是肺结节 / 肺癌筛查主题专项，与 COPD（Ch 40）、ILD（Ch 41）、COVID-19（Ch 42）、肺癌表征（Ch 44）、肺血管（Ch 46）形成"胸/肺疾病 AI" 完整图景。读者通过对比可学会"AI 在不同胸/肺疾病的共性与差异"。

重要参考文献

[X1] Siegel RL, Miller KD, Jemal A. Cancer statistics, 2020. CA Cancer J Clin. 2020;70(1):7-30.
[X2] National Cancer Institute. SEER Cancer Statistics Review, 1975-2017.
[X3] Henschke CI, Yankelevitz DF, Libby DM, et al. Survival of patients with stage I lung cancer detected on CT screening. N Engl J Med. 2006;355(17):1763-71.
[X8] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med. 2011;365(5):395-409.
[X9] de Koning HJ, van der Aalst CM, de Jong PA, et al. Reduced lung-cancer mortality with volume CT screening in a randomized trial. N Engl J Med. 2020;382(6):503-13.
[X10] Field JK, Duffy SW, Baldwin DR, et al. The UK Lung Cancer Screening Trial: a pilot randomised controlled trial of low-dose computed tomography screening for the detection of lung cancer. Health Technol Assess. 2016;20(40):1-146.
[X11] Pastorino U, Sverzellati N, Sestini S, et al. Ten-year results of the Multicentric Italian Lung Detection trial demonstrate the safety and efficacy of biennial lung cancer screening. Eur J Cancer. 2019;118:142-8.
[X12] Pinsky PF, Gierada DS, Black W, et al. Performance of Lung-RADS in the National Lung Screening Trial. Ann Intern Med. 2015;162(7):485-91.
[X13] American College of Radiology. Lung-RADS v1.1. 2019.
[X14] Oudkerk M, Devaraj A, Vliegenthart R, et al. European position statement on lung cancer screening. Lancet Oncol. 2017;18(12):e754-66.
[X15] Pastorino U, Silva M, Sestini S, et al. Prolonged lung cancer screening reduced 10-year mortality in the MILD trial. Ann Oncol. 2019;30(7):1162-9.
[X22] van Ginneken B, Armato SG 3rd, de Hoop B, et al. Comparing and combining algorithms for computer-aided detection of pulmonary nodules in computed tomography scans: the ANODE09 study. Med Image Anal. 2010;14(6):707-22.
[X24] Armato SG 3rd, McLennan G, Bidaut L, et al. The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): a completed reference database of lung nodules on CT scans. Med Phys. 2011;38(2):915-31.
[X25] National Lung Screening Trial Research Team. Data from the National Lung Screening Trial (NLST) [Data set]. 2013.
[X26] Setio AAA, Traverso A, de Bel T, et al. Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the LUNA16 challenge. Med Image Anal. 2017;42:1-13.
[X27] Kaggle. Data Science Bowl 2017. 2017.
[X28] Pedrosa J, Aresta G, Ferreira C, et al. LNDb: a lung nodule database on computed tomography. arXiv:191111325. 2019.
[X29] MacMahon H, Naidich DP, Goo JM, et al. Guidelines for management of incidental pulmonary nodules in adults. Radiology. 2017;284(1):228-43.

第 43 章 肺癌筛查与结节检测：AI 的角色（Lung Cancer Screening and Nodule Detection: The Role of Artificial Intelligence）

作者