第2章 揭开人工智能技术的神秘面纱:心脏胸腔影像中的精髓(Demystifying Artificial Intelligence Technology in Cardiothoracic Imaging: The Essentials)
作者
- Jelmer M. Wolterink, PhD(通讯作者)— Department of Applied Mathematics, Technical Medical Centre, University of Twente, Enschede, Netherlands. 荷兰医学影像 AI 领域重要学者,专注于心血管影像的深度学习算法。
- Anirban Mukhopadhyay, PhD — Department of Informatics, Technische Universität Darmstadt, Darmstadt, Germany. 德国 TU Darmstadt 医学影像 AI 研究者。
本章是Part I 的方法学第一站,目的是给后续 53 章的所有"AI 模型"建立统一的概念语言——AI、ML、DL 的关系;ANN 的基本结构;监督/无监督/半监督学习;训练-验证-测试集划分;CNN 的工作原理;big data 的作用。读者不需要任何深度学习基础,但应能跟随公式符号阅读。
内容概述
本章回答"AI 在医学影像中到底是怎么工作的"这一问题,遵循"从抽象到具体"的逻辑链。核心论点:(1) AI、ML、DL 三个术语的覆盖范围是嵌套关系——AI ⊃ ML ⊃ DL,目前放射学 AI 几乎全在 DL 子集内;(2) 一个 ANN 的"训练"本质上是用梯度下降迭代最小化损失函数——这就是 LeCun 1989、He 2016 等所有"深度学习突破"背后的统一数学骨架;(3) 训练-验证-测试集的三分法和 N 折交叉验证是防止过拟合的标准方法,但不解决外部验证问题(分布偏移);(4) CNN 之所以在医学影像中占主导,是因为它通过卷积核权值共享把"图像的局部空间结构"硬编码进网络,大幅降低参数量、抑制过拟合;(5) 真正制约 AI 临床落地的是数据——规模、多样性、标注质量、可访问性,而"更好的算法"反而退居次要位置。读者需要知道基础线性代数(矩阵乘、梯度)即可理解 §3 的核心方程。本章是 Ch 3-9 的概念前置。
核心方程与概念
1. AI / ML / DL 嵌套关系(图 2.1)
- 形式:\(\mathrm{DL} \subset \mathrm{ML} \subset \mathrm{AI}\)。
- AI:广义——让机器执行通常需要人类智能的任务(如下棋、对话)。
- ML:让模型从数据中"学习"任务,无需显式编程。代表方法:SVM(支持向量机,用超平面分类)、决策树(用条件分支编码)。
- DL:ML 的子集——用 ANN(特别是深度 ANN)作为内部模型。核心优势是自动学特征表示(feature learning),无需手工设计特征。
2. ANN 单元(Unit)的基本方程(图 2.3)
- 形式:单个隐藏单元的激活值 $\(a_{\text{out}} = f\!\left(\sum_{i} w_i a_i + w_{\text{bias}}\right)\)$ 其中 \(a_i\) 是输入单元 \(i\) 的激活、\(w_i\) 是连接权重、\(w_{\text{bias}}\) 是偏置、\(f(\cdot)\) 是非线性激活函数。
- ReLU 激活:\(f(x) = \max(0, x)\)。当前深度学习的默认选择——比 sigmoid/tanh 更不易梯度消失。
- 架构(architecture):层数、每层单元数、连接方式(FC、卷积、循环、attention)。常见架构:LeNet-5、ResNet、U-Net。
3. 损失函数(Loss Function)与训练目标
- 二分类任务(例:胸片有无肺炎):常用 binary cross-entropy: $\(L(y, f(x)) = -\,y \log f(x) - (1 - y)\log\bigl(1 - f(x)\bigr)\)$ 其中 \(y \in \{0, 1\}\) 是真值标签,\(f(x) \in [0, 1]\) 是网络预测概率。
- 特例:
- 当 \(y = 0\):\(L = -\log(1 - f(x))\),预测 \(f(x) \to 0\) 时 \(L \to 0\)。
- 当 \(y = 1\):\(L = -\log f(x)\),预测 \(f(x) \to 1\) 时 \(L \to 0\)。
- 训练目标:找到参数 \(\mathbf{w}^*\) 使训练集上的平均损失最小 $\(\mathbf{w}^* = \arg\min_{\mathbf{w}} \frac{1}{N}\sum_{n=1}^{N} L\bigl(y_n, f(x_n; \mathbf{w})\bigr)\)$
4. 优化器:随机梯度下降(SGD)
- 核心思想:在每次迭代中,用当前 mini-batch 估计梯度,沿负梯度方向更新参数 $\(\mathbf{w}^{(t+1)} = \mathbf{w}^{(t)} - \eta\, \nabla_{\mathbf{w}} L_{\text{batch}}\)$ 其中 \(\eta\) 是学习率(learning rate)。
- 关键参数:
- 学习率 \(\eta\):太大会发散,太小收敛慢。
- batch size:太小梯度噪声大,太大需要更多内存。
- 迭代次数(epoch):太少欠拟合,太多过拟合。
5. 数据集划分:训练 / 验证 / 测试
- 典型比例:~70% 训练 + ~15% 验证 + ~15% 测试(§2 提到"约 30% 用于 validation 和 testing")。
- 训练集:用于参数(权重)优化。
- 验证集:用于超参数(hyperparameter,如网络深度、宽度、学习率)选择。
- 测试集:仅在开发结束后触碰一次,作为"模型对所有未见过数据的代理"。
- N 折交叉验证(CV):当数据稀缺时使用——把数据分 N 折,轮流用 N-1 折训练、1 折验证,得到 N 个模型性能估计的平均。King 2021 证明了"cross-validation is safe to use"。
6. 过拟合(Overfitting)与正则化
- 定义:训练损失持续下降,验证损失先降后升——网络开始"记住"训练样本的噪声而非学到通用规律(图 2.7)。
- 泛化误差(generalization error):测试集性能与训练集性能之差。
- 正则化方法:
- 改目标函数(如 L2 正则:\(L_{\text{total}} = L + \lambda \|\mathbf{w}\|_2^2\))。
- 约束参数取值范围(如最大范数约束)。
- Dropout(Srivastava 2014):训练时随机将部分单元输出置 0,迫使网络学习冗余表示。
- Batch Normalization(Ioffe 2015):对每层输入做标准化(减均值、除标准差),加速收敛并有一定正则化效果。
7. CNN:卷积层 + 下采样层 + 全连接层
- 核心思想(图 2.8):用卷积核(convolution kernel,3×3 或 5×5 的小滤波器)在图像上滑动,每到一处做内积,得到一张"特征图"(feature map)。一个卷积核只有 ~10-100 个参数(远少于全连接层),但通过"权值共享"在整张图像上提取同类模式。
- 参数量比较(§2.3 给出关键数字):
- \(8 \times 7\) 像素图像 + 单隐层 50 单元的 FC 网络 → ~2900 个参数。
- \(256 \times 256\) 像素胸片 + 单隐层 1000 单元的 FC 网络 → > 6500 万参数——必然过拟合。
- 同样大小的输入用 CNN:每个卷积核独立于图像大小(如 3×3 核只有 9 个参数),参数量随图像尺寸几乎不增长。
- 下采样层(downsampling / pooling):把特征图尺寸减半(如 2×2 区域取最大或平均),保留最强响应,扩展感受野。
- U-Net(Ronneberger 2015):全卷积网络(fully convolutional network, FCN)的代表——通过"编码-解码"结构 + 跳跃连接(skip connections),逐像素输出(one prediction per pixel/voxel),完美适配医学影像的分割任务。
- 临床应用:肺结节检测(X 线 / CT)、冠脉钙化评分(CT)、胸部 X 线的多种异常分类。
8. Big Data 的三重含义
- 挑战赛(Grand Challenge 等):MICCAI / ISBI / RSNA 等会议主办,提供带标注的公开数据集 + 排行榜。心脏领域的著名挑战:自动冠脉钙化评分(Wolterink 2016)、肺结节检测(LUNA16, Setio 2017)、胸部危及器官分割(SegTHOR, Lambert 2020)。但 Maier-Hein 2018(Nat Commun)警告:挑战赛排名"往往不稳健"——同样的方法在不同随机种子下排名波动可达 10-20 名。
- 公共数据库:The Cancer Imaging Archive(TCIA, Clark 2013)含 NLST(国家肺癌筛查试验)等大型数据集。COVID-19 期间出现多个 X 线 / CT 公开数据集。
- 联邦学习(Federated Learning):数据不离开本地医院,模型在各医院间移动——Rieke 2020 (npj Digit Med) 讨论其作为"数据隐私 + 大数据"两全方案的前景。
9. 可解释性(Interpretability)与"打开黑箱"
- CNN 的内在优势:可以通过反向投影(back-projection)把网络决策可视化到原图上,形成热力图(heat map)。如 De Vos 2018 的冠脉钙化评分热图。
- 可解释性的临床必要性:医生不信任"黑箱预测",监管机构(FDA)也要求 AI 输出可解释的推理过程。Ch 23(NLP)会进一步讨论。
关键结论
- AI/ML/DL 不可互换使用——DL 仅仅是 AI 的一个成功子集,把所有"基于规则的传统算法"也归入 AI 是常见但误导性的术语滥用。
- ANN 的"学习"本质是数值优化——所有现代 DL 的"突破"(LeNet、AlexNet、ResNet、Transformer)都共享同一个数学骨架:用 SGD 迭代最小化损失函数。理解这一骨架就理解了 90% 的 DL。
- 过拟合是医学影像 AI 的头号敌人——医学影像数据集往往较小(千例级),而现代 CNN 参数量动辄数千万。Dropout、Batch Norm、数据增强(augmentation)、迁移学习(transfer learning)是必备防线。
- CNN 的"权值共享"是与医学影像的天然契合——把"局部空间结构"硬编码进网络,参数效率比 FC 网络高几个数量级,是它在医学影像中近乎垄断地位的根本原因。
- 训练-验证-测试集划分不等于外部验证——同一医院、同一 MRI 扫描仪、同一阅片者的数据即使分到测试集,仍然分布内(in-distribution)。真正的临床落地需要多中心、前瞻性、不同厂商设备的外部测试(这一缺陷在 Ch 4 数据准备和 Ch 21 软件评估中会重点讨论)。
- 数据是真正瓶颈——2010s 后期开始,"更好的算法"对性能的边际贡献递减,数据规模与多样性成为关键。Maier-Hein 2018 的挑战赛排名不稳定研究就揭示了这一点。
- 可解释性 + 不确定性估计是临床 AI 的两大缺口——这两个领域仍在发展,是"为何大多数 FDA 批准的 AI 仍是辅助性的,而非自主诊断"的核心原因。
挑战和开放性问题
- 数据 vs 算法的边际收益——一个关键未解问题:当代 DL 模型的性能天花板是数据受限还是算法受限?经验上"先扩数据,再调算法"通常更有效,但缺乏严格的缩放定律(scaling law)研究。
- 可解释性的形式化定义缺失——"可解释"对放射科医生(需要定位异常区域)、监管者(需要决策依据)、患者(需要知情同意)含义不同,目前没有统一形式化。
- 过拟合的新形态——"虚假相关"——CNN 可能学到与临床无关的伪特征(如扫描仪伪影、医院特定的解剖变异),这些伪特征在测试集上仍是 in-distribution,但跨医院失效。本章未展开,是 Ch 4 数据准备的伏笔。
- 挑战赛的方法学不稳健——Maier-Hein 2018 报告许多挑战赛的冠军方法在新数据上并非显著优于亚军,且方法间差异往往在统计噪声范围内。这对临床落地的方法学信任构成挑战。
- 联邦学习的实际可行性——数据非独立同分布(non-IID)、各医院标注协议不同、模型聚合的通信开销等工程问题远未解决。
- 小样本学习(few-shot learning)和自监督预训练——GPT-4 / DINOv2 / SAM 在自然图像上的"少样本学习"能否迁移到医学影像?目前医学影像的 SSL 仍依赖 ImageNet 预训练,领域迁移的鸿沟很大。
- "AI 替代放射科医生"vs"AI 辅助放射科医生"——2021 年 Huisman 等的 1041 名放射科医生国际调查显示:约 2/3 对 AI 在 5-10 年内辅助其工作持乐观态度,但只有 1/3 相信自己会被替代。这种认知分裂本身就是一个社会-技术问题。
个人反思与批判性分析
本章作为"DL 入门"写得结构清晰、概念准确,但有几个值得在后续章节中注意的简化与遗漏:
优势: - "AI ⊃ ML ⊃ DL"的嵌套关系图(图 2.1)简洁有力,对纠正术语滥用有直接价值。 - 把"训练 = 用 SGD 最小化损失"作为统一骨架,让读者一通百通。 - 训练/验证/测试集的"职责分离"讲得很清楚,并指出"测试集只触碰一次"这一行业规范。 - CNN 段把"权值共享 → 局部空间结构 → 参数效率"的逻辑链交代得很完整。 - Big Data 部分不空谈——给了具体的挑战赛名称、数据库链接、关键论文(Setio 2017, Clark 2013, Rieke 2020)。 - 把"挑战赛排名不稳定"(Maier-Hein 2018)作为开放问题主动提出,学术诚实度较高。
批判与补足: 1. 缺少"维度灾难"(curse of dimensionality)的直觉:一个 256×256 灰度胸片是 65536 维向量,但正样本(肺炎)只有几千例——\(N \ll p\) 困境。本章只在"参数量"层面提到过拟合风险,但没有从维度灾难的角度讲为什么小数据 + 复杂模型必然失败。这是一个对放射科医生更有教学价值的角度。 2. CNN 之前的"手工特征"时代被一笔带过:ML 中 SVM 和决策树仍"ubiquitous",但在医学影像中它们早已被 CNN 替代。本章未提 SIFT、HOG、LBP 等手工特征——而这恰恰是 Ch 7(Radiomics)的核心。读者如果跳过 Ch 7,会以为 CNN 是 ML 在医学影像的唯一历史。 3. 训练-验证-测试集划分对"小样本 + 多中心"的真实困境缺乏讨论:当医院 A 只有 100 例、且与医院 B 设备不同时,把数据按 7:1.5:1.5 划分就完全无法评估外部泛化。本章暗示的"test set 是 unseen data 的代理"在 2017 年后已被多篇论文证伪——可参考 Ch 4 的 de Araujo 团队。 4. 学习率调度(learning rate scheduling)完全未提——现代 DL 几乎都配合 cosine decay / step decay / warmup 等调度策略。固定学习率 SGD 在 2017 年后已基本被 Adam + cosine decay 取代。本章停留在"2006 年的 DL 实践"层面,与 Ch 6 的"如何构建算法"章节可能不衔接。 5. 可解释性方法学分类模糊——只提了"back-projection"和"heat map",但未区分: - 梯度法(Saliency, Grad-CAM) - 遮挡法(Occlusion, LIME) - 概念法(Concept Activation Vectors, TCAV) - 反事实法(Counterfactual explanations) 后续 Ch 11、Ch 22-28 在评价"AI 辅助阅片"时会反复涉及这些方法。 6. "全连接网络不适合图像"是 2010 前的旧观点——2017 年起 Vision Transformer (ViT) 证明:纯 attention 架构(无卷积)在足够大的数据集上也能达到或超过 CNN。本章完全没提 Transformer,与 Ch 33(功能性 MR 评估)等较新章节的方法学脱节。建议在 Ch 6 实施时增加 §3.1 的延伸阅读。 7. 缺一个"AI 失败的典型案例"——比如 Jayne 2017 NEJM 关于败血症预测的 AI 在外部验证中失效。直接给读者一个"算法 ≠ 临床价值"的具象反例,比反复说"要谨慎"更有说服力。 8. "Big Data"提了 3 个层级的数据来源,但没谈"数据偏差"——单中心数据、回顾性数据、特定人群数据(white male 美国退伍军人)会学出严重偏倚的模型。Ch 8(生物样本库)和 Ch 52(伦理)会接续,但本章缺失是一个明显跳板。
给作者的问题: - 在 2022 年这个时间点,你认为一个放射科医生最少需要知道哪些 AI 知识?哪些可以留给计算机科学家? - 当临床场景只允许小样本(罕见病)时,CNN 是否仍然是首选?还是应该回到"手工特征 + 经典 ML"? - 可解释性方法的"误导"风险有多大?(已有研究显示 Grad-CAM 热图与人类关注点不一致,但被广泛引用为"可解释性证据"。)
值得复现的推导: - Binary cross-entropy 的梯度推导(结合 Ch 6 实施)。 - Convolution 操作的矩阵化(im2col + GEMM),这是 CNN 实际工程实现的核心(Ch 6 实施)。 - 一个 5 层 CNN 在小型胸部 X 线数据集(如 CheXpert 子集)上的端到端训练循环,建议配合 Ch 6 一起读。
重要参考文献
[X1] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proc IEEE. 1998;86(11):2278–323. DOI: 10.1109/5.726791. [X2] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. Commun ACM. 2017;60(6):84–90. DOI: 10.1145/3065386. [X3] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. CVPR 2016. p. 770–8. DOI: 10.1109/CVPR.2016.90. [X4] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation. In: MICCAI 2015, LNCS 9351. Springer; 2015. p. 234–41. DOI: 10.1007/978-3-319-24574-4_28. [X5] Srivastava N, Hinton G, Krizhevsky A, Salakhutdinov R. Dropout: a simple way to prevent neural networks from overfitting. JMLR. 2014;15:1929–58. [X6] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. PMLR. 2015;37:448–56. [X7] Bishop CM. Pattern recognition and machine learning. New York: Springer; 2006. (ISBN 978-0-387-31073-2) [X8] Goodfellow I, Bengio Y, Courville A. Deep learning. Cambridge: MIT Press; 2016. (ISBN 978-0-262-03561-3) [X9] Litjens G, et al. A survey on deep learning in medical image analysis. Med Image Anal. 2017;42:60–88. DOI: 10.1016/j.media.2017.07.005. [X10] Maier-Hein L, et al. Why rankings of biomedical image analysis competitions should be interpreted with care. Nat Commun. 2018;9(1):5217. DOI: 10.1038/s41467-018-07619-7. [X11] Setio AAA, et al. Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in CT: the LUNA16 challenge. Med Image Anal. 2017;42:1–13. DOI: 10.1016/j.media.2017.06.015. [X12] Clark K, et al. The Cancer Imaging Archive (TCIA): maintaining and operating a public information repository. J Digit Imaging. 2013;26(6):1045–57. DOI: 10.1007/s10278-013-9622-7.