第 52 章医疗 AI 应用的伦理考虑（Ethical Considerations of Artificial Intelligence Applications in Healthcare）

作者

Judy Wawira Gichoya, MD, MS（通讯作者）—— Department of Radiology & Department of Biomedical Informatics, Emory University, Atlanta, GA, USA。
Carolyn Meltzer, MD —— Department of Radiology & Imaging Sciences, Emory University。
Janice Newsome, MD —— Department of Radiology & Imaging Sciences, Emory University。
Ramon Correa, PhD Student —— Department of Biomedical Informatics, Emory School of Medicine。
Hari Trivedi, MD（通讯作者）—— Department of Radiology & Department of Biomedical Informatics, Emory University。
Imon Banerjee, PhD —— Department of Biomedical Informatics & Department of Radiology & Imaging Sciences, Emory School of Medicine。
Melissa Davis, MD —— Department of Radiology & Imaging Sciences, Emory University。
Leo Anthony Celi, MD, MS —— Institute for Medical Engineering and Science, MIT；Pulmonary, Critical Care and Sleep Medicine, Beth Israel Deaconess Medical Center；Department of Biostatistics, Harvard T.H. Chan School of Public Health。

本章位于 Part V 通用考虑部分，承接第 51 章（商业化与 IP）后，转向医疗 AI 伦理——AI 公平、偏倚与责任。Emory 大学 + MIT/Harvard 联合的 8 人团队，跨放射学 + 生物信息学 + 临床 + 伦理学。Gichoya、Celi 是医疗 AI 偏倚研究领域的国际领军人物。

内容概述

本章系统阐述医疗 AI 的伦理问题：

种族偏倚（Racial Bias）：
案例 1：Obermeyer 2019 Science 论文——医疗费用预测算法系统性低估 Black 患者医疗需求
案例 2：MELD 评分、PESI、SOFA 评分、Get-With-The-Guidelines-HF 风险评分中的"种族" 因素
案例 3：GFR 估计中的"种族调整" 争议
案例 4：脉氧仪（Pulse Oximetry）在 Black 人群中的"隐匿性低氧血症"
运营 AI 公平性（Operationalizing Fairness）：
数据偏倚
训练-部署偏倚
评估指标不全面（TPR / FNR / FDR / FOR）
多数报告未做亚组分析
AI 作为偏倚的解决方案：
Obermeyer / Pierson 2021 Nature Medicine——膝关节 X 射线预测疼痛严重度，可解释 43% 的种族不平等
未来伦理 AI 展望：
跨学科团队
治理结构
FDA 监管局限性

核心概念

1. 医疗算法中的种族偏倚典型案例

算法	问题	来源
健康风险预测算法	用"医疗费用" 代理"健康需求"，Black 患者被低估	Obermeyer 2019 Science
GFR 估计	包含"种族" 系数，Black 患者 GFR 偏高	Levey 2009 / Diao 2021 NEJM
脉氧仪	Black 患者"隐匿性低氧血症" 风险高 3 倍	Sjoding 2020 NEJM
Get-With-The-Guidelines-HF	Black 患者被赋值"低风险"，可能导致转诊减少	Smaha 2004 AHA
ICU 评分（OASIS/SOFA/APACHE）	在 MIMIC/eICU 中对 Black / Hispanic 标准化死亡率过度预测	Sarkar 2021 Lancet Digit Health

2. 公平性评估指标（Fairness Metrics）

TPR（True Positive Rate）：真阳性率
FNR（False Negative Rate）：假阴性率
FDR（False Discovery Rate）：错误发现率
FOR（False Omission Rate）：错误遗漏率
比值阈值：1.0 = 公平；<0.8 = 负向偏倚；>1.2 = 正向偏倚

3. 训练数据地理分布偏倚

AI 系统训练数据多来自 3 个州（California、Massachusetts、New York）
34 个州在可识别地理队列中无代表
反映"地理数据鸿沟"

4. 概念辨析

偏倚来源：
问题构建偏倚（Problem Formulation Bias）：用错误的目标变量（如"费用" 而非"需求"）
数据偏倚（Data Bias）：训练数据缺乏多样性
评估偏倚（Evaluation Bias）：评估指标不全面、缺乏亚组分析
部署偏倚（Deployment Bias）：训练-部署分布漂移
"去除种族" vs. "种族中立"：
简单地"去除种族" 变量不能消除偏倚——可能放大或引入新偏倚
需"种族中立" 的方法学重新设计
"IRB 局限"：传统 IRB 评估聚焦"研究" 和"临床试验"，对 AI 的"算法 + 数据 + 部署" 流程覆盖不足
"持续学习" AI 模型的"监管" 不匹配：FDA 假设"产品固定"，AI 模型持续学习导致"持续监管" 难题
"算法黑箱" 与"商业秘密" 冲突：商业秘密保护导致算法不可审计，监管困难
"算法可见性" 与"公平性" 的张力：saliency maps 等可解释性方法在医学影像中"非特异性"，难以发现偏倚
"社会-技术方法" vs. "技术中心方法"：传统 AI 评估多为"技术中心方法"（统计指标），但"社会-技术方法"（人机交互、流程整合）才更接近临床实践
"激励与惩罚" 驱动 AI 使用：CAD 乳腺摄片虽准确性不如医生，但因额外报销仍继续使用——Viz.ai 的 LVO 工作流绕过放射科医生通知介入医生并获 Medicare 报销。
"持续评估" vs. "一次评估"：医疗 AI 部署到不同地点性能会下降，需"持续评估" 框架
"商业化" vs. "通用性" 张力：当前"销售 + 购买" 商业模型鼓励"过拟合特定人群"，与"通用性" 矛盾

关键结论

Obermeyer 2019 Science 论文揭示医疗费用预测算法的种族偏倚——Black 患者在"高风险护理计划" 中比例仅 17.7%，修正后可达 46.5%。
GFR 估计中的"种族调整" 争议——Black 患者 GFR 偏高可能导致肾脏专科转诊延迟、移植延迟。
脉氧仪在 Black 人群中"隐匿性低氧血症" 风险高 3 倍——这放大 AI 系统的医疗决策偏差。
MIMIC/eICU 数据集中 Black/Hispanic 患者的标准化死亡率被 ICU 评分系统过度预测——COVID-19 期间用这些评分分诊可能导致 Black/Hispanic 患者医疗资源被剥夺。
Get-With-The-Guidelines-HF 评分对 Black 患者"低风险" 赋值可能导致转诊减少。
AI 训练数据地理偏倚——3 个州的数据训练 AI，34 个州无代表。
多数 AI 研究未做亚组分析——导致偏倚"潜伏"。
AI 可作为偏倚的解决方案——Obermeyer 2021 Nature Medicine 用膝关节 X 射线预测疼痛，可解释 43% 的种族不平等。
MIRAI 乳腺癌风险预测在 Black + 致密乳腺女性表现差——"双重弱势"。
Viz.ai LVO 绕过放射科医生通知介入医生并获 Medicare 报销——"激励驱动 AI" 案例。
FDA 监管假设"产品固定"，与"持续学习" AI 模型不匹配——监管框架待重塑。
传统 IRB 评估对 AI 的"算法 + 数据 + 部署" 流程覆盖不足。
AI 公平性需跨学科合作（数据科学 + 临床 + 算法 + 实施）。
治理结构（governance structures）将是 AI 落地的关键。

挑战和开放性问题

"持续学习" AI 模型的"监管" 不匹配：FDA 假设"产品固定"，AI 模型持续学习导致"持续监管" 难题。
"算法黑箱" 与"商业秘密" 冲突：商业秘密保护导致算法不可审计，监管困难。
"算法可见性" 与"公平性" 的张力：saliency maps 等可解释性方法在医学影像中"非特异性"，难以发现偏倚。
"问题构建" 的"伦理" 边界：用"费用" 代理"需求" 是研究者的判断——IRB 难以审查这种"判断"。
"训练数据" vs. "数据多样性" 的张力：开放数据共享 + 隐私保护 + IP 保护的张力。
"亚组分析" 的"成本" 问题：亚组分析需大量样本 + 多个统计测试——成本高。
"算法更新" vs. "算法验证" 的张力：算法更新后是否需重新验证？监管路径不明确。
"持续评估" 框架缺失：传统 RCT 评估假设"产品固定"，AI 需"持续评估" 框架。
"全球公平" vs. "区域公平"：AI 在不同种族 / 地域的偏倚表现不同——评估框架需"分层"。
"AI 工具的'持续使用' 成本"：AI 工具在"持续使用" 中需"持续评估" + "持续报告"——成本高。
"AI 工具的'责任归属'" 难题：AI 误诊时责任分配不清（医院 / AI 公司 / 医生）。
"国际 AI 公司的'地缘政治'"：中美科技竞争下，国际 AI 公司面临"地缘政治" 风险。
"AI 工具的'算法歧视' 风险"：训练数据偏差导致 AI 输出偏差，可能违反反歧视法。
"AI 工具的'商业化' 与'社会公平' 张力"：商业化追求利润，社会公平追求患者利益——张力是核心矛盾。

个人反思与批判性分析

作者团队的"放射学 + 生物信息学 + 临床 + 伦理学" 跨学科组合：Gichoya（Emory 放射学 + 生物信息学）+ Meltzer（Emory 放射学主任）+ Celi（MIT 医疗工程）——三位的"放射学 + 工程 + 伦理学" 跨学科组合是本章的方法学亮点。Emory 大学放射学系是医疗 AI 偏倚研究的全球重镇，Gichoya 的"CheXclusion" 研究（2020 arXiv）是该领域里程碑。
Obermeyer 2019 Science 论文的方法学价值：Obermeyer 团队分析 200 万美国人的商业风险预测算法，发现"医疗费用" 代理"医疗需求" 导致 Black 患者被低估——通过"重新加权" 风险评分（无需更换算法或数据），可将 Black 患者入组率从 17.7% 提升至 46.5%。这种"算法后处理" 策略是医疗 AI 公平性研究的方法学突破。
"问题构建" 是 AI 偏倚的"根源"：传统 AI 偏倚研究聚焦"数据 + 算法"，但 Obermeyer 揭示"问题构建"（用"费用" 代理"需求"）是更深层根源。这种"问题构建" 偏倚需"伦理审查 + 价值对齐" 而非技术修复。
"持续学习" AI 与"持续监管" 的不匹配：FDA / NMPA 假设"产品固定"，但 AI 模型持续学习导致"产品持续变化"。这种"动态产品" 与"静态监管" 的不匹配是医疗 AI 监管的核心挑战。Gichoya 团队建议"持续评估 + 持续报告" 框架，但实施成本高。
"算法黑箱" 与"商业秘密" 冲突：商业秘密保护导致算法不可审计，监管困难。这种"商业 + 法律" 张力是医疗 AI 公平性的核心挑战。Gichoya 团队建议"算法透明度 + 第三方审计" 但商业 IP 保护可能受限。
"亚组分析" 的缺失是当前 AI 研究的"系统性问题"：多数 AI 研究报告"整体指标"（AUC 0.95），未做亚组分析。这种"指标偏倚" 掩盖了算法在不同人群中的差异。Gichoya 团队呼吁"强制亚组分析" 报告，但出版文化与统计成本是阻碍。
"社会-技术方法" 是医疗 AI 评估的未来方向：传统 AI 评估多为"技术中心方法"（统计指标），但"人机交互 + 流程整合" 才更接近临床实践。Gichoya 团队强调"augmented radiologist" 而非"replacement radiologist"——这种"协同" 定位更适合医疗 AI 的伦理落地。
Viz.ai LVO 案例的伦理争议：Viz.ai 绕过放射科医生直接通知神经介入医生并获 Medicare 报销——这种"激励驱动 AI" 案例引发"谁负责 AI 输出" 的伦理争议。这种"商业激励" 可能偏离"患者利益" 目标。
与第 49-51、53-55 章的协同：本章是伦理主题专项，与法律 / 监管（Ch 49）、卫生经济学（Ch 50）、商业化（Ch 51）、论文写作（Ch 53）、网络安全（Ch 54）、全球展望（Ch 55）形成"Part V 通用考虑" 完整图景。读者通过对比可学会"AI 在医疗的'非技术' 维度"。
"全球 AI 公平性" 的挑战：不同国家 / 地区的种族 / 民族 / 社会经济差异大，AI 偏倚表现不同。Gichoya 团队的研究主要聚焦美国，但欧洲、中国、非洲的 AI 公平性问题需各自研究。

重要参考文献

[1] Apple Watch. https://www.apple.com/healthcare/apple-watch/. 2021.
[2] Wiley Z, Kubes JN, Cobb J, et al. Age, comorbid conditions, and racial disparities in COVID-19 outcomes. J Racial Ethn Health Disparities. 2021.
[7] Geis JR, Brady AP, Wu CC, et al. Ethics of artificial intelligence in radiology: summary of the joint European and North American multisociety statement. Radiology. 2019;293(2):436-40.
[8] Obermeyer Z, Powers B, Vogeli C, Mullainathan S. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366(6464):447-53.（本章核心引用）
[9] Smaha LA. The American Heart Association Get with the Guidelines program. Am Heart J. 2004;148(5 Suppl):S46-8.
[10] Sarkar R, Martin C, Mattie H, Gichoya JW, Stone DJ, Celi LA. Performance of intensive care unit severity scoring systems across different ethnicities in the USA. Lancet Digit Health. 2021;3(4):e241-9.
[12] Diao JA, Inker LA, Levey AS, et al. In search of a better equation - performance and equity in estimates of kidney function. N Engl J Med. 2021;384(5):396-9.
[13] Sjoding MW, Dickson RP, Iwashyna IJ, Gay SE, Valley TS. Racial bias in pulse oximetry measurement. N Engl J Med. 2020;383(25):2477-8.
[14] Levey AS, Stevens LA, Schmid CH, et al. A new equation to estimate glomerular filtration rate. Ann Intern Med. 2009;150(9):604-12.
[15] Shah S, Majmudar K, Stein A, et al. Novel use of home pulse oximetry monitoring in COVID-19 patients. Acad Emerg Med. 2020;27(8):681-92.
[20] Ioannidis JPA, Powe NR, Yancy C. Recalibrating the use of race in medical research. JAMA. 2021;325(7):623-4.
[21] Kaushal A, Altman R, Langlotz C. Geographic distribution of US cohorts used to train deep learning algorithms. JAMA. 2020;324(12):1212-3.
[25] Seyyed-Kalantari L, Liu G, McDermott M, Ghassemi M. CheXclusion: Fairness gaps in deep chest X-ray classifiers. arXiv. 2020.
[30] Viz.ai Granted Medicare New Technology Add-on Payment. PR Newswire. 2021.
[34] Pierson E, Cutler DM, Leskovec J, Mullainathan S, Obermeyer Z. An algorithmic approach to reducing unexplained pain disparities in underserved populations. Nat Med. 2021;27(1):136-40.（AI 减少不平等的核心案例）
[35] Gichoya JW, Celi LA. Beyond the AJR: "an algorithmic approach to reducing unexplained pain disparities in underserved populations". AJR Am J Roentgenol. 2021.
[39] Wawira Gichoya J, McCoy LG, Celi LA, Ghassemi M. Equity in essence: a call for operationalising fairness in machine learning for healthcare. BMJ Health Care Inform. 2021;28(1).
[40] Liu X, Rivera SC, Moher D, et al. SPIRIT-AI and CONSORT-AI Working Group. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. BMJ. 2020;9(370):m3164.
[42] Sounderajah V, Ashrafian H, Aggarwal R, et al. Developing specific reporting guidelines for diagnostic accuracy studies assessing AI interventions: the STARD-AI steering group. Nat Med. 2020.
[43] Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. Ann Intern Med. 2015;162(1):55-63.
[44] FDA. Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. 2021.
[45] FTC. Aiming for truth, fairness, and equity in your company's use of AI. 2021.

第 52 章 医疗 AI 应用的伦理考虑（Ethical Considerations of Artificial Intelligence Applications in Healthcare）

作者

内容概述

核心概念

1. 医疗算法中的种族偏倚典型案例

2. 公平性评估指标（Fairness Metrics）

3. 训练数据地理分布偏倚

4. 概念辨析

关键结论

挑战和开放性问题

个人反思与批判性分析

重要参考文献

第 52 章医疗 AI 应用的伦理考虑（Ethical Considerations of Artificial Intelligence Applications in Healthcare）