第 53 章 AI 论文的写作与评审（How to Write and Review an Artificial Intelligence Paper）

作者

Thomas Weikert, MD（通讯作者）—— Department of Radiology, University Hospital Basel, University of Basel, Switzerland。
Tim Leiner, MD, PhD —— Department of Radiology, Mayo Clinic, Rochester, MN, USA。

本章位于 Part V 通用考虑部分，承接第 52 章（伦理）后，转向AI 论文写作与评审的实践方法学。Weikert 来自瑞士 Basel 大学医院放射科，Leiner 来自美国 Mayo Clinic 放射科——两位放射学家合作撰写本章，是 AI 论文写作方法学的"工具书" 章节。

内容概述

本章针对"AI 论文写作" 与"AI 论文评审" 两大需求，提出 12 项关键考虑 + 25 项 checklist：

关键考虑（Key Considerations）：
考虑 1：问题与背景的清晰定义
考虑 2：使用 AI 的理由
考虑 3：ML 模型选择与技术细节
考虑 4：样本量论证
考虑 5：训练 / 验证 / 测试集规范
考虑 6：Ground Truth（金标准）
考虑 7：结果报告
考虑 8：结果可解释性
考虑 9：临床应用可能性
考虑 10：可泛化性
考虑 11：对患者管理与结局的影响
考虑 12：代码可用性
Checklist（Box 53.1）：25 项可执行 checklist，按标准论文结构（标题 / 摘要 / 引言 / 方法 / 结果 / 讨论 / 其他）组织
报告标准对照：STARD / SPIRIT / TRIPOD / CLAIM / CONSORT-AI / SPIRIT-AI / STARD-AI / TRIPOD-ML

核心概念

1. 12 项关键考虑

#	考虑	核心问题
1	问题与背景	临床问题清晰？疾病定义精确（ICD 码）？
2	使用 AI 的理由	与现有方法比较？AI 是合理选择？
3	ML 模型选择	哪种模型？软件库？超参数？数据增强？
4	样本量	样本量论证？任务复杂度、模型复杂度、目标性能？
5	数据集拆分	训练 / 验证 / 测试集拆分？外部验证？
6	Ground Truth	如何标注？谁标注？观察者间一致性？
7	结果报告	混淆矩阵、敏感度、特异度、PPV、NPV、F1、AUC？
8	可解释性	saliency maps？专家视觉评估？
9	临床应用	数据集代表性？部署要求（on-premise / 云）？用户接受度？
10	泛化性	外部验证？不同厂商 / 中心 / 区域？
11	对患者管理影响	改善结局？影响治疗决策？
12	代码可用	开源 GitHub？何时何地可用？不可用原因？

2. 报告标准对照

标准	全称	适用
STARD	Standards for Reporting of Diagnostic Accuracy Studies	诊断准确性研究
SPIRIT	Standard Protocol Items: Recommendations for Interventional Trials	临床试验方案
TRIPOD	Transparent Reporting of a Multivariable Prediction Model	预测模型
CONSORT-AI	AI 临床试验报告扩展	AI 临床试验
SPIRIT-AI	AI 临床试验方案扩展	AI 临床试验方案
STARD-AI	AI 诊断准确性研究扩展	AI 诊断研究
TRIPOD-ML	ML 预测模型报告	ML 预测模型
CLAIM	Checklist for Artificial Intelligence in Medical Imaging	医学影像 AI

3. 关键指标辨析

敏感度（Sensitivity） = 召回率（Recall）
PPV（Positive Predictive Value） = 精度（Precision）
F1 score = 敏感度 + PPV 的调和均值
AUC = ROC 曲线下面积，0.5 = 随机，1.0 = 完美
IoU（Intersection over Union） = A∩B / A∪B，分割任务
Dice coefficient = 2|A∩B| / (|A| + |B|)，与 IoU 相关
Hausdorff distance = 两个轮廓间最大距离
平均轮廓距离 = 两个轮廓间平均距离

4. 概念辨析

"验证集" vs. "外部验证"：
验证集：算法开发过程中用于超参数调整
外部验证：用独立中心 / 数据集证明泛化性
"问题构建" 偏倚：AI 论文需明确"问题" 与"目标变量"——错误的目标变量导致偏倚。
"训练 / 验证 / 测试" 拆分比例：80% / 10% / 10% 或 60% / 20% / 20%——前者适合数据少。
"内部一致性" vs. "外部一致性"：内部一致性指同一中心不同时段数据，外部一致性指不同中心数据。
"数据增强" 的双面性：数据增强可缓解数据稀缺与过拟合，但"模拟数据" 需"代表真实世界数据"。
"金标准" 偏倚：监督学习完全依赖金标准——金标准的质量是算法性能的天花板。
"AGREE / CONSORT / STARD" 角色：不同研究类型有不同报告标准——AI 论文需符合多个标准。
"Saliency maps" 局限：saliency maps 在医学影像中"非特异性"——Gichoya 团队证明其可能误导。
"算法黑箱" 的"误用"："黑箱" 比喻可能误导——算法的"操作机制" 是已知的，但"参数含义" 不直观。
"FDA 监管" vs. "研究论文" 差异：FDA 关注"持续性能"，研究论文关注"一次实验"——但 FDA 越来越要求"代码可获取"。

关键结论

AI 论文需满足"AI 特有" 的方法学要求——传统 STARD / SPIRIT / TRIPOD 不够。
12 项关键考虑涵盖"问题 + 数据 + 模型 + 评估 + 临床" 全流程。
25 项 checklist 是"作者 + 审稿人" 双方可用的"工具"——按标准论文结构组织。
报告标准（CLAIM / CONSORT-AI / SPIRIT-AI / STARD-AI / TRIPOD-ML）越来越多——AI 论文需对照多个标准。
"问题构建" 偏倚（用错误目标变量）是 AI 论文的"根源性" 问题——与 Gichoya 团队（Ch 52）观点一致。
"样本量论证" 缺失严重——Balki 2019 系统综述发现 167 篇医学影像 ML 论文仅 2.4% 做了样本量论证。
"外部验证" 是 AI 论文最常缺失的——影响泛化性判断。
"代码可用性" 是 AI 论文的"透明度" 标志——越来越多期刊要求开源。
"临床结局" 评估是 AI 论文的"终极目标"——但多数 AI 论文仅报告"诊断性能"。
"用户接受度"（EMR 集成、等待时间、误报）决定 AI 工具的实际应用。

挑战和开放性问题

"样本量论证" 的方法学缺失：当前 ML 论文多基于"便利样本"，缺乏"样本量论证" 的方法学标准。
"外部验证" 的"中心间差异" 难题：不同中心 / 厂商 / 区域的数据差异导致 AI 性能"漂移"。
"问题构建" 偏倚的"伦理审查" 难题：传统 IRB 难以审查"问题构建" 的"伦理"——与 Gichoya 团队（Ch 52）观点一致。
"代码可用" vs. "商业 IP" 冲突：商业公司不愿开源代码——与"透明度" 矛盾。
"持续学习" AI 模型的"持续报告" 难题：AI 模型持续学习导致"持续报告" 需求——传统报告框架不支持。
"全球公平" 评估的"标准化" 缺失：不同国家 / 地区的 AI 偏倚表现不同——评估框架需"分层" 但标准缺失。
"AI 论文的'统计严谨性'"：ML 论文的统计测试（多次比较、p 值、置信区间）方法学不统一。
"AI 论文的'复现性'" 危机：许多 ML 论文难以复现——代码 + 数据 + 超参数不全。
"AI 论文的'同行评审' 能力" 差距：放射科 / 临床医生对 ML 方法学的理解不足——评审能力有限。
"AI 论文的'作者署名' 难题：ML 论文常涉及多学科（医生 + 工程师 + 数据科学家 + 统计师）——署名规范不清。
"AI 论文的'利益冲突' 披露"：AI 公司资助的论文可能存在"利益冲突"——披露规范需加强。
"AI 论文的'期刊选择'"：工程类期刊 vs. 临床类期刊的"技术细节" 要求不同——选择困难。
"AI 论文的'预印本' 文化"：arXiv / medRxiv 预印本导致"未经同行评审" 的 AI 论文快速传播——质量参差。
"AI 论文的'撤稿' 风险"：AI 论文的数据 + 代码 + 训练流程问题可能撤稿——但撤稿后仍被引用。

个人反思与批判性分析

作者团队的"放射学 + 国际" 组合：Weikert（瑞士 Basel 大学医院放射科）+ Leiner（美国 Mayo Clinic 放射科）——两位放射学家的"国际合作" 体现了 AI 论文写作方法学的"全球共识" 必要性。
"Checklist 文化" 在 AI 论文中的关键性：12 项考虑 + 25 项 checklist 是 AI 论文写作的"工具书"——作者用 checklist 自查，审稿人用 checklist 评审。这种"标准化" 是 AI 论文质量提升的关键。
"问题构建" 偏倚的"根源性"：与 Gichoya 团队（Ch 52）观点一致——"问题构建" 偏倚是 AI 论文的"根源性" 问题。错误的目标变量导致所有后续分析偏倚。
"样本量论证" 的"系统缺失"：Balki 2019 系统综述发现 167 篇医学影像 ML 论文仅 2.4% 做了样本量论证——这种"系统缺失" 反映 ML 论文的"统计严谨性" 不足。
"外部验证" 的"中心间差异" 难题：AI 模型在不同中心 / 厂商 / 区域的数据上性能下降是普遍现象——这是 AI 临床落地的"硬伤"。Weikert / Leiner 建议"外部验证" 但实操困难。
"代码可用性" 的"透明度" 标志：越来越多期刊要求开源代码——这是 AI 论文"可复现性" 的关键。但商业 IP 保护与透明度存在张力。
"用户接受度" 的"非技术" 因素：算法再好，若用户不接受（EMR 集成差、等待时间长、误报多）也无法落地——这种"非技术" 因素常被忽视。
"临床结局" 评估的"终极目标"：多数 AI 论文仅报告"诊断性能"（AUC 0.95），未证明"改善患者结局"——后者是 AI 临床价值的"硬指标"。
"12 项考虑" 的"工程化" 价值：12 项考虑涵盖"问题 + 数据 + 模型 + 评估 + 临床 + 泛化 + 影响 + 透明度" 全流程，是 AI 论文写作的"完整框架"。读者可按 checklist 逐项检查。
"25 项 checklist" 的"实操性"：checklist 按标准论文结构（标题 / 摘要 / 引言 / 方法 / 结果 / 讨论 / 其他）组织，是作者 + 审稿人"可立即应用" 的工具。
"AI 论文 vs. 传统论文" 报告标准对照：STARD / SPIRIT / TRIPOD / CLAIM / CONSORT-AI / SPIRIT-AI / STARD-AI / TRIPOD-ML——这种"标准丛" 反映 AI 论文写作的"方法学快速演化"，作者需对照多个标准。
与第 49-52、54-55 章的协同：本章是论文写作主题专项，与法律 / 监管（Ch 49）、卫生经济学（Ch 50）、商业化（Ch 51）、伦理（Ch 52）、网络安全（Ch 54）、全球展望（Ch 55）形成"Part V 通用考虑" 完整图景。读者通过对比可学会"AI 在医疗的'非技术' 维度"。

重要参考文献

[1] Abadi M, Agarwal A, Barham P, et al. TensorFlow: large-scale machine learning on heterogeneous distributed systems. 2016.
[2] Balki I, Amirabadi A, Levman J, et al. Sample-size determination methodologies for machine learning in medical imaging research: a systematic review. Can Assoc Radiol J. 2019;70(4):344-53.
[3] Bluemke DA, Moy L, Bredella MA, et al. Assessing radiology research on artificial intelligence: a brief guide for authors, reviewers, and readers—from the radiology editorial board. Radiology. 2020;294(3):487-9.
[4] Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD Group. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. Radiology. 2015;277(3):826-32.
[5] Chan A-W, Tetzlaff JM, Altman DG, et al. SPIRIT 2013 statement: defining standard protocol items for clinical trials. Ann Intern Med. 2013;158(3):200-7.
[6] Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ. 2015;350:g7594.
[7] FDA. Proposed regulatory framework for modifications to artificial intelligence/machine learning (AI/ML)-based software as a medical device (SaMD) - Discussion Paper and Request for Feedback. 2019.
[8] Mongan J, Moy L, Kahn CE Jr. Checklist for artificial intelligence in medical imaging (CLAIM): a guide for authors and reviewers. Radiol Artif Intell. 2020;2(2):e200029.（AI 影像论文报告标准）
[9] Paszke A, Gross S, Massa F, et al. PyTorch: an imperative style, high-performance deep learning library. NeurIPS. 2019.
[10] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: machine learning in Python. JMLR. 2011;12:2825-30.
Liu X, Rivera SC, Moher D, et al. SPIRIT-AI and CONSORT-AI Working Group. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. BMJ. 2020;370:m3164.
Rivera SC, Liu X, Chan A-W, et al. SPIRIT-AI and CONSORT-AI Working Group. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. BMJ. 2020;370:m3210.
Sounderajah V, Ashrafian H, Aggarwal R, et al. Developing specific reporting guidelines for diagnostic accuracy studies assessing AI interventions: the STARD-AI steering group. Nat Med. 2020;26(6):807-8.
Collins GS, Moons KGM. Reporting of artificial intelligence prediction models: the TRIPOD-AI statement. Lancet Digit Health. 2021;3(7):e389-90.