跳转至

第 53 章 AI 论文的写作与评审(How to Write and Review an Artificial Intelligence Paper)

作者

  • Thomas Weikert, MD(通讯作者)—— Department of Radiology, University Hospital Basel, University of Basel, Switzerland。
  • Tim Leiner, MD, PhD —— Department of Radiology, Mayo Clinic, Rochester, MN, USA。

本章位于 Part V 通用考虑部分,承接第 52 章(伦理)后,转向AI 论文写作与评审的实践方法学。Weikert 来自瑞士 Basel 大学医院放射科,Leiner 来自美国 Mayo Clinic 放射科——两位放射学家合作撰写本章,是 AI 论文写作方法学的"工具书" 章节。

内容概述

本章针对"AI 论文写作" 与"AI 论文评审" 两大需求,提出 12 项关键考虑 + 25 项 checklist:

  1. 关键考虑(Key Considerations)
  2. 考虑 1:问题与背景的清晰定义
  3. 考虑 2:使用 AI 的理由
  4. 考虑 3:ML 模型选择与技术细节
  5. 考虑 4:样本量论证
  6. 考虑 5:训练 / 验证 / 测试集规范
  7. 考虑 6:Ground Truth(金标准)
  8. 考虑 7:结果报告
  9. 考虑 8:结果可解释性
  10. 考虑 9:临床应用可能性
  11. 考虑 10:可泛化性
  12. 考虑 11:对患者管理与结局的影响
  13. 考虑 12:代码可用性
  14. Checklist(Box 53.1):25 项可执行 checklist,按标准论文结构(标题 / 摘要 / 引言 / 方法 / 结果 / 讨论 / 其他)组织
  15. 报告标准对照:STARD / SPIRIT / TRIPOD / CLAIM / CONSORT-AI / SPIRIT-AI / STARD-AI / TRIPOD-ML

核心概念

1. 12 项关键考虑

# 考虑 核心问题
1 问题与背景 临床问题清晰?疾病定义精确(ICD 码)?
2 使用 AI 的理由 与现有方法比较?AI 是合理选择?
3 ML 模型选择 哪种模型?软件库?超参数?数据增强?
4 样本量 样本量论证?任务复杂度、模型复杂度、目标性能?
5 数据集拆分 训练 / 验证 / 测试集拆分?外部验证?
6 Ground Truth 如何标注?谁标注?观察者间一致性?
7 结果报告 混淆矩阵、敏感度、特异度、PPV、NPV、F1、AUC?
8 可解释性 saliency maps?专家视觉评估?
9 临床应用 数据集代表性?部署要求(on-premise / 云)?用户接受度?
10 泛化性 外部验证?不同厂商 / 中心 / 区域?
11 对患者管理影响 改善结局?影响治疗决策?
12 代码可用 开源 GitHub?何时何地可用?不可用原因?

2. 报告标准对照

标准 全称 适用
STARD Standards for Reporting of Diagnostic Accuracy Studies 诊断准确性研究
SPIRIT Standard Protocol Items: Recommendations for Interventional Trials 临床试验方案
TRIPOD Transparent Reporting of a Multivariable Prediction Model 预测模型
CONSORT-AI AI 临床试验报告扩展 AI 临床试验
SPIRIT-AI AI 临床试验方案扩展 AI 临床试验方案
STARD-AI AI 诊断准确性研究扩展 AI 诊断研究
TRIPOD-ML ML 预测模型报告 ML 预测模型
CLAIM Checklist for Artificial Intelligence in Medical Imaging 医学影像 AI

3. 关键指标辨析

  • 敏感度(Sensitivity) = 召回率(Recall)
  • PPV(Positive Predictive Value) = 精度(Precision)
  • F1 score = 敏感度 + PPV 的调和均值
  • AUC = ROC 曲线下面积,0.5 = 随机,1.0 = 完美
  • IoU(Intersection over Union) = A∩B / A∪B,分割任务
  • Dice coefficient = 2|A∩B| / (|A| + |B|),与 IoU 相关
  • Hausdorff distance = 两个轮廓间最大距离
  • 平均轮廓距离 = 两个轮廓间平均距离

4. 概念辨析

  • "验证集" vs. "外部验证"
  • 验证集:算法开发过程中用于超参数调整
  • 外部验证:用独立中心 / 数据集证明泛化性
  • "问题构建" 偏倚:AI 论文需明确"问题" 与"目标变量"——错误的目标变量导致偏倚。
  • "训练 / 验证 / 测试" 拆分比例:80% / 10% / 10% 或 60% / 20% / 20%——前者适合数据少。
  • "内部一致性" vs. "外部一致性":内部一致性指同一中心不同时段数据,外部一致性指不同中心数据。
  • "数据增强" 的双面性:数据增强可缓解数据稀缺与过拟合,但"模拟数据" 需"代表真实世界数据"。
  • "金标准" 偏倚:监督学习完全依赖金标准——金标准的质量是算法性能的天花板。
  • "AGREE / CONSORT / STARD" 角色:不同研究类型有不同报告标准——AI 论文需符合多个标准。
  • "Saliency maps" 局限:saliency maps 在医学影像中"非特异性"——Gichoya 团队证明其可能误导。
  • "算法黑箱" 的"误用":"黑箱" 比喻可能误导——算法的"操作机制" 是已知的,但"参数含义" 不直观。
  • "FDA 监管" vs. "研究论文" 差异:FDA 关注"持续性能",研究论文关注"一次实验"——但 FDA 越来越要求"代码可获取"。

关键结论

  • AI 论文需满足"AI 特有" 的方法学要求——传统 STARD / SPIRIT / TRIPOD 不够。
  • 12 项关键考虑涵盖"问题 + 数据 + 模型 + 评估 + 临床" 全流程。
  • 25 项 checklist 是"作者 + 审稿人" 双方可用的"工具"——按标准论文结构组织。
  • 报告标准(CLAIM / CONSORT-AI / SPIRIT-AI / STARD-AI / TRIPOD-ML)越来越多——AI 论文需对照多个标准。
  • "问题构建" 偏倚(用错误目标变量)是 AI 论文的"根源性" 问题——与 Gichoya 团队(Ch 52)观点一致。
  • "样本量论证" 缺失严重——Balki 2019 系统综述发现 167 篇医学影像 ML 论文仅 2.4% 做了样本量论证。
  • "外部验证" 是 AI 论文最常缺失的——影响泛化性判断。
  • "代码可用性" 是 AI 论文的"透明度" 标志——越来越多期刊要求开源。
  • "临床结局" 评估是 AI 论文的"终极目标"——但多数 AI 论文仅报告"诊断性能"。
  • "用户接受度"(EMR 集成、等待时间、误报)决定 AI 工具的实际应用。

挑战和开放性问题

  • "样本量论证" 的方法学缺失:当前 ML 论文多基于"便利样本",缺乏"样本量论证" 的方法学标准。
  • "外部验证" 的"中心间差异" 难题:不同中心 / 厂商 / 区域的数据差异导致 AI 性能"漂移"。
  • "问题构建" 偏倚的"伦理审查" 难题:传统 IRB 难以审查"问题构建" 的"伦理"——与 Gichoya 团队(Ch 52)观点一致。
  • "代码可用" vs. "商业 IP" 冲突:商业公司不愿开源代码——与"透明度" 矛盾。
  • "持续学习" AI 模型的"持续报告" 难题:AI 模型持续学习导致"持续报告" 需求——传统报告框架不支持。
  • "全球公平" 评估的"标准化" 缺失:不同国家 / 地区的 AI 偏倚表现不同——评估框架需"分层" 但标准缺失。
  • "AI 论文的'统计严谨性'":ML 论文的统计测试(多次比较、p 值、置信区间)方法学不统一。
  • "AI 论文的'复现性'" 危机:许多 ML 论文难以复现——代码 + 数据 + 超参数不全。
  • "AI 论文的'同行评审' 能力" 差距:放射科 / 临床医生对 ML 方法学的理解不足——评审能力有限。
  • "AI 论文的'作者署名' 难题:ML 论文常涉及多学科(医生 + 工程师 + 数据科学家 + 统计师)——署名规范不清。
  • "AI 论文的'利益冲突' 披露":AI 公司资助的论文可能存在"利益冲突"——披露规范需加强。
  • "AI 论文的'期刊选择'":工程类期刊 vs. 临床类期刊的"技术细节" 要求不同——选择困难。
  • "AI 论文的'预印本' 文化":arXiv / medRxiv 预印本导致"未经同行评审" 的 AI 论文快速传播——质量参差。
  • "AI 论文的'撤稿' 风险":AI 论文的数据 + 代码 + 训练流程问题可能撤稿——但撤稿后仍被引用。

个人反思与批判性分析

  • 作者团队的"放射学 + 国际" 组合:Weikert(瑞士 Basel 大学医院放射科)+ Leiner(美国 Mayo Clinic 放射科)——两位放射学家的"国际合作" 体现了 AI 论文写作方法学的"全球共识" 必要性。
  • "Checklist 文化" 在 AI 论文中的关键性:12 项考虑 + 25 项 checklist 是 AI 论文写作的"工具书"——作者用 checklist 自查,审稿人用 checklist 评审。这种"标准化" 是 AI 论文质量提升的关键。
  • "问题构建" 偏倚的"根源性":与 Gichoya 团队(Ch 52)观点一致——"问题构建" 偏倚是 AI 论文的"根源性" 问题。错误的目标变量导致所有后续分析偏倚。
  • "样本量论证" 的"系统缺失":Balki 2019 系统综述发现 167 篇医学影像 ML 论文仅 2.4% 做了样本量论证——这种"系统缺失" 反映 ML 论文的"统计严谨性" 不足。
  • "外部验证" 的"中心间差异" 难题:AI 模型在不同中心 / 厂商 / 区域的数据上性能下降是普遍现象——这是 AI 临床落地的"硬伤"。Weikert / Leiner 建议"外部验证" 但实操困难。
  • "代码可用性" 的"透明度" 标志:越来越多期刊要求开源代码——这是 AI 论文"可复现性" 的关键。但商业 IP 保护与透明度存在张力。
  • "用户接受度" 的"非技术" 因素:算法再好,若用户不接受(EMR 集成差、等待时间长、误报多)也无法落地——这种"非技术" 因素常被忽视。
  • "临床结局" 评估的"终极目标":多数 AI 论文仅报告"诊断性能"(AUC 0.95),未证明"改善患者结局"——后者是 AI 临床价值的"硬指标"。
  • "12 项考虑" 的"工程化" 价值:12 项考虑涵盖"问题 + 数据 + 模型 + 评估 + 临床 + 泛化 + 影响 + 透明度" 全流程,是 AI 论文写作的"完整框架"。读者可按 checklist 逐项检查。
  • "25 项 checklist" 的"实操性":checklist 按标准论文结构(标题 / 摘要 / 引言 / 方法 / 结果 / 讨论 / 其他)组织,是作者 + 审稿人"可立即应用" 的工具。
  • "AI 论文 vs. 传统论文" 报告标准对照:STARD / SPIRIT / TRIPOD / CLAIM / CONSORT-AI / SPIRIT-AI / STARD-AI / TRIPOD-ML——这种"标准丛" 反映 AI 论文写作的"方法学快速演化",作者需对照多个标准。
  • 与第 49-52、54-55 章的协同:本章是论文写作主题专项,与法律 / 监管(Ch 49)、卫生经济学(Ch 50)、商业化(Ch 51)、伦理(Ch 52)、网络安全(Ch 54)、全球展望(Ch 55)形成"Part V 通用考虑" 完整图景。读者通过对比可学会"AI 在医疗的'非技术' 维度"。

重要参考文献

  • [1] Abadi M, Agarwal A, Barham P, et al. TensorFlow: large-scale machine learning on heterogeneous distributed systems. 2016.
  • [2] Balki I, Amirabadi A, Levman J, et al. Sample-size determination methodologies for machine learning in medical imaging research: a systematic review. Can Assoc Radiol J. 2019;70(4):344-53.
  • [3] Bluemke DA, Moy L, Bredella MA, et al. Assessing radiology research on artificial intelligence: a brief guide for authors, reviewers, and readers—from the radiology editorial board. Radiology. 2020;294(3):487-9.
  • [4] Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD Group. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. Radiology. 2015;277(3):826-32.
  • [5] Chan A-W, Tetzlaff JM, Altman DG, et al. SPIRIT 2013 statement: defining standard protocol items for clinical trials. Ann Intern Med. 2013;158(3):200-7.
  • [6] Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ. 2015;350:g7594.
  • [7] FDA. Proposed regulatory framework for modifications to artificial intelligence/machine learning (AI/ML)-based software as a medical device (SaMD) - Discussion Paper and Request for Feedback. 2019.
  • [8] Mongan J, Moy L, Kahn CE Jr. Checklist for artificial intelligence in medical imaging (CLAIM): a guide for authors and reviewers. Radiol Artif Intell. 2020;2(2):e200029.(AI 影像论文报告标准)
  • [9] Paszke A, Gross S, Massa F, et al. PyTorch: an imperative style, high-performance deep learning library. NeurIPS. 2019.
  • [10] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: machine learning in Python. JMLR. 2011;12:2825-30.
  • Liu X, Rivera SC, Moher D, et al. SPIRIT-AI and CONSORT-AI Working Group. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. BMJ. 2020;370:m3164.
  • Rivera SC, Liu X, Chan A-W, et al. SPIRIT-AI and CONSORT-AI Working Group. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. BMJ. 2020;370:m3210.
  • Sounderajah V, Ashrafian H, Aggarwal R, et al. Developing specific reporting guidelines for diagnostic accuracy studies assessing AI interventions: the STARD-AI steering group. Nat Med. 2020;26(6):807-8.
  • Collins GS, Moons KGM. Reporting of artificial intelligence prediction models: the TRIPOD-AI statement. Lancet Digit Health. 2021;3(7):e389-90.