第 52 章 医疗 AI 应用的伦理考虑(Ethical Considerations of Artificial Intelligence Applications in Healthcare)
作者
- Judy Wawira Gichoya, MD, MS(通讯作者)—— Department of Radiology & Department of Biomedical Informatics, Emory University, Atlanta, GA, USA。
- Carolyn Meltzer, MD —— Department of Radiology & Imaging Sciences, Emory University。
- Janice Newsome, MD —— Department of Radiology & Imaging Sciences, Emory University。
- Ramon Correa, PhD Student —— Department of Biomedical Informatics, Emory School of Medicine。
- Hari Trivedi, MD(通讯作者)—— Department of Radiology & Department of Biomedical Informatics, Emory University。
- Imon Banerjee, PhD —— Department of Biomedical Informatics & Department of Radiology & Imaging Sciences, Emory School of Medicine。
- Melissa Davis, MD —— Department of Radiology & Imaging Sciences, Emory University。
- Leo Anthony Celi, MD, MS —— Institute for Medical Engineering and Science, MIT;Pulmonary, Critical Care and Sleep Medicine, Beth Israel Deaconess Medical Center;Department of Biostatistics, Harvard T.H. Chan School of Public Health。
本章位于 Part V 通用考虑部分,承接第 51 章(商业化与 IP)后,转向医疗 AI 伦理——AI 公平、偏倚与责任。Emory 大学 + MIT/Harvard 联合的 8 人团队,跨放射学 + 生物信息学 + 临床 + 伦理学。Gichoya、Celi 是医疗 AI 偏倚研究领域的国际领军人物。
内容概述
本章系统阐述医疗 AI 的伦理问题:
- 种族偏倚(Racial Bias):
- 案例 1:Obermeyer 2019 Science 论文——医疗费用预测算法系统性低估 Black 患者医疗需求
- 案例 2:MELD 评分、PESI、SOFA 评分、Get-With-The-Guidelines-HF 风险评分中的"种族" 因素
- 案例 3:GFR 估计中的"种族调整" 争议
- 案例 4:脉氧仪(Pulse Oximetry)在 Black 人群中的"隐匿性低氧血症"
- 运营 AI 公平性(Operationalizing Fairness):
- 数据偏倚
- 训练-部署偏倚
- 评估指标不全面(TPR / FNR / FDR / FOR)
- 多数报告未做亚组分析
- AI 作为偏倚的解决方案:
- Obermeyer / Pierson 2021 Nature Medicine——膝关节 X 射线预测疼痛严重度,可解释 43% 的种族不平等
- 未来伦理 AI 展望:
- 跨学科团队
- 治理结构
- FDA 监管局限性
核心概念
1. 医疗算法中的种族偏倚典型案例
| 算法 | 问题 | 来源 |
|---|---|---|
| 健康风险预测算法 | 用"医疗费用" 代理"健康需求",Black 患者被低估 | Obermeyer 2019 Science |
| GFR 估计 | 包含"种族" 系数,Black 患者 GFR 偏高 | Levey 2009 / Diao 2021 NEJM |
| 脉氧仪 | Black 患者"隐匿性低氧血症" 风险高 3 倍 | Sjoding 2020 NEJM |
| Get-With-The-Guidelines-HF | Black 患者被赋值"低风险",可能导致转诊减少 | Smaha 2004 AHA |
| ICU 评分(OASIS/SOFA/APACHE) | 在 MIMIC/eICU 中对 Black / Hispanic 标准化死亡率过度预测 | Sarkar 2021 Lancet Digit Health |
2. 公平性评估指标(Fairness Metrics)
- TPR(True Positive Rate):真阳性率
- FNR(False Negative Rate):假阴性率
- FDR(False Discovery Rate):错误发现率
- FOR(False Omission Rate):错误遗漏率
- 比值阈值:1.0 = 公平;<0.8 = 负向偏倚;>1.2 = 正向偏倚
3. 训练数据地理分布偏倚
- AI 系统训练数据多来自 3 个州(California、Massachusetts、New York)
- 34 个州在可识别地理队列中无代表
- 反映"地理数据鸿沟"
4. 概念辨析
- 偏倚来源:
- 问题构建偏倚(Problem Formulation Bias):用错误的目标变量(如"费用" 而非"需求")
- 数据偏倚(Data Bias):训练数据缺乏多样性
- 评估偏倚(Evaluation Bias):评估指标不全面、缺乏亚组分析
- 部署偏倚(Deployment Bias):训练-部署分布漂移
- "去除种族" vs. "种族中立":
- 简单地"去除种族" 变量不能消除偏倚——可能放大或引入新偏倚
- 需"种族中立" 的方法学重新设计
- "IRB 局限":传统 IRB 评估聚焦"研究" 和"临床试验",对 AI 的"算法 + 数据 + 部署" 流程覆盖不足
- "持续学习" AI 模型的"监管" 不匹配:FDA 假设"产品固定",AI 模型持续学习导致"持续监管" 难题
- "算法黑箱" 与"商业秘密" 冲突:商业秘密保护导致算法不可审计,监管困难
- "算法可见性" 与"公平性" 的张力:saliency maps 等可解释性方法在医学影像中"非特异性",难以发现偏倚
- "社会-技术方法" vs. "技术中心方法":传统 AI 评估多为"技术中心方法"(统计指标),但"社会-技术方法"(人机交互、流程整合)才更接近临床实践
- "激励与惩罚" 驱动 AI 使用:CAD 乳腺摄片虽准确性不如医生,但因额外报销仍继续使用——Viz.ai 的 LVO 工作流绕过放射科医生通知介入医生并获 Medicare 报销。
- "持续评估" vs. "一次评估":医疗 AI 部署到不同地点性能会下降,需"持续评估" 框架
- "商业化" vs. "通用性" 张力:当前"销售 + 购买" 商业模型鼓励"过拟合特定人群",与"通用性" 矛盾
关键结论
- Obermeyer 2019 Science 论文揭示医疗费用预测算法的种族偏倚——Black 患者在"高风险护理计划" 中比例仅 17.7%,修正后可达 46.5%。
- GFR 估计中的"种族调整" 争议——Black 患者 GFR 偏高可能导致肾脏专科转诊延迟、移植延迟。
- 脉氧仪在 Black 人群中"隐匿性低氧血症" 风险高 3 倍——这放大 AI 系统的医疗决策偏差。
- MIMIC/eICU 数据集中 Black/Hispanic 患者的标准化死亡率被 ICU 评分系统过度预测——COVID-19 期间用这些评分分诊可能导致 Black/Hispanic 患者医疗资源被剥夺。
- Get-With-The-Guidelines-HF 评分对 Black 患者"低风险" 赋值可能导致转诊减少。
- AI 训练数据地理偏倚——3 个州的数据训练 AI,34 个州无代表。
- 多数 AI 研究未做亚组分析——导致偏倚"潜伏"。
- AI 可作为偏倚的解决方案——Obermeyer 2021 Nature Medicine 用膝关节 X 射线预测疼痛,可解释 43% 的种族不平等。
- MIRAI 乳腺癌风险预测在 Black + 致密乳腺女性表现差——"双重弱势"。
- Viz.ai LVO 绕过放射科医生通知介入医生并获 Medicare 报销——"激励驱动 AI" 案例。
- FDA 监管假设"产品固定",与"持续学习" AI 模型不匹配——监管框架待重塑。
- 传统 IRB 评估对 AI 的"算法 + 数据 + 部署" 流程覆盖不足。
- AI 公平性需跨学科合作(数据科学 + 临床 + 算法 + 实施)。
- 治理结构(governance structures)将是 AI 落地的关键。
挑战和开放性问题
- "持续学习" AI 模型的"监管" 不匹配:FDA 假设"产品固定",AI 模型持续学习导致"持续监管" 难题。
- "算法黑箱" 与"商业秘密" 冲突:商业秘密保护导致算法不可审计,监管困难。
- "算法可见性" 与"公平性" 的张力:saliency maps 等可解释性方法在医学影像中"非特异性",难以发现偏倚。
- "问题构建" 的"伦理" 边界:用"费用" 代理"需求" 是研究者的判断——IRB 难以审查这种"判断"。
- "训练数据" vs. "数据多样性" 的张力:开放数据共享 + 隐私保护 + IP 保护的张力。
- "亚组分析" 的"成本" 问题:亚组分析需大量样本 + 多个统计测试——成本高。
- "算法更新" vs. "算法验证" 的张力:算法更新后是否需重新验证?监管路径不明确。
- "持续评估" 框架缺失:传统 RCT 评估假设"产品固定",AI 需"持续评估" 框架。
- "全球公平" vs. "区域公平":AI 在不同种族 / 地域的偏倚表现不同——评估框架需"分层"。
- "AI 工具的'持续使用' 成本":AI 工具在"持续使用" 中需"持续评估" + "持续报告"——成本高。
- "AI 工具的'责任归属'" 难题:AI 误诊时责任分配不清(医院 / AI 公司 / 医生)。
- "国际 AI 公司的'地缘政治'":中美科技竞争下,国际 AI 公司面临"地缘政治" 风险。
- "AI 工具的'算法歧视' 风险":训练数据偏差导致 AI 输出偏差,可能违反反歧视法。
- "AI 工具的'商业化' 与'社会公平' 张力":商业化追求利润,社会公平追求患者利益——张力是核心矛盾。
个人反思与批判性分析
- 作者团队的"放射学 + 生物信息学 + 临床 + 伦理学" 跨学科组合:Gichoya(Emory 放射学 + 生物信息学)+ Meltzer(Emory 放射学主任)+ Celi(MIT 医疗工程)——三位的"放射学 + 工程 + 伦理学" 跨学科组合是本章的方法学亮点。Emory 大学放射学系是医疗 AI 偏倚研究的全球重镇,Gichoya 的"CheXclusion" 研究(2020 arXiv)是该领域里程碑。
- Obermeyer 2019 Science 论文的方法学价值:Obermeyer 团队分析 200 万美国人的商业风险预测算法,发现"医疗费用" 代理"医疗需求" 导致 Black 患者被低估——通过"重新加权" 风险评分(无需更换算法或数据),可将 Black 患者入组率从 17.7% 提升至 46.5%。这种"算法后处理" 策略是医疗 AI 公平性研究的方法学突破。
- "问题构建" 是 AI 偏倚的"根源":传统 AI 偏倚研究聚焦"数据 + 算法",但 Obermeyer 揭示"问题构建"(用"费用" 代理"需求")是更深层根源。这种"问题构建" 偏倚需"伦理审查 + 价值对齐" 而非技术修复。
- "持续学习" AI 与"持续监管" 的不匹配:FDA / NMPA 假设"产品固定",但 AI 模型持续学习导致"产品持续变化"。这种"动态产品" 与"静态监管" 的不匹配是医疗 AI 监管的核心挑战。Gichoya 团队建议"持续评估 + 持续报告" 框架,但实施成本高。
- "算法黑箱" 与"商业秘密" 冲突:商业秘密保护导致算法不可审计,监管困难。这种"商业 + 法律" 张力是医疗 AI 公平性的核心挑战。Gichoya 团队建议"算法透明度 + 第三方审计" 但商业 IP 保护可能受限。
- "亚组分析" 的缺失是当前 AI 研究的"系统性问题":多数 AI 研究报告"整体指标"(AUC 0.95),未做亚组分析。这种"指标偏倚" 掩盖了算法在不同人群中的差异。Gichoya 团队呼吁"强制亚组分析" 报告,但出版文化与统计成本是阻碍。
- "社会-技术方法" 是医疗 AI 评估的未来方向:传统 AI 评估多为"技术中心方法"(统计指标),但"人机交互 + 流程整合" 才更接近临床实践。Gichoya 团队强调"augmented radiologist" 而非"replacement radiologist"——这种"协同" 定位更适合医疗 AI 的伦理落地。
- Viz.ai LVO 案例的伦理争议:Viz.ai 绕过放射科医生直接通知神经介入医生并获 Medicare 报销——这种"激励驱动 AI" 案例引发"谁负责 AI 输出" 的伦理争议。这种"商业激励" 可能偏离"患者利益" 目标。
- 与第 49-51、53-55 章的协同:本章是伦理主题专项,与法律 / 监管(Ch 49)、卫生经济学(Ch 50)、商业化(Ch 51)、论文写作(Ch 53)、网络安全(Ch 54)、全球展望(Ch 55)形成"Part V 通用考虑" 完整图景。读者通过对比可学会"AI 在医疗的'非技术' 维度"。
- "全球 AI 公平性" 的挑战:不同国家 / 地区的种族 / 民族 / 社会经济差异大,AI 偏倚表现不同。Gichoya 团队的研究主要聚焦美国,但欧洲、中国、非洲的 AI 公平性问题需各自研究。
重要参考文献
- [1] Apple Watch. https://www.apple.com/healthcare/apple-watch/. 2021.
- [2] Wiley Z, Kubes JN, Cobb J, et al. Age, comorbid conditions, and racial disparities in COVID-19 outcomes. J Racial Ethn Health Disparities. 2021.
- [7] Geis JR, Brady AP, Wu CC, et al. Ethics of artificial intelligence in radiology: summary of the joint European and North American multisociety statement. Radiology. 2019;293(2):436-40.
- [8] Obermeyer Z, Powers B, Vogeli C, Mullainathan S. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366(6464):447-53.(本章核心引用)
- [9] Smaha LA. The American Heart Association Get with the Guidelines program. Am Heart J. 2004;148(5 Suppl):S46-8.
- [10] Sarkar R, Martin C, Mattie H, Gichoya JW, Stone DJ, Celi LA. Performance of intensive care unit severity scoring systems across different ethnicities in the USA. Lancet Digit Health. 2021;3(4):e241-9.
- [12] Diao JA, Inker LA, Levey AS, et al. In search of a better equation - performance and equity in estimates of kidney function. N Engl J Med. 2021;384(5):396-9.
- [13] Sjoding MW, Dickson RP, Iwashyna IJ, Gay SE, Valley TS. Racial bias in pulse oximetry measurement. N Engl J Med. 2020;383(25):2477-8.
- [14] Levey AS, Stevens LA, Schmid CH, et al. A new equation to estimate glomerular filtration rate. Ann Intern Med. 2009;150(9):604-12.
- [15] Shah S, Majmudar K, Stein A, et al. Novel use of home pulse oximetry monitoring in COVID-19 patients. Acad Emerg Med. 2020;27(8):681-92.
- [20] Ioannidis JPA, Powe NR, Yancy C. Recalibrating the use of race in medical research. JAMA. 2021;325(7):623-4.
- [21] Kaushal A, Altman R, Langlotz C. Geographic distribution of US cohorts used to train deep learning algorithms. JAMA. 2020;324(12):1212-3.
- [25] Seyyed-Kalantari L, Liu G, McDermott M, Ghassemi M. CheXclusion: Fairness gaps in deep chest X-ray classifiers. arXiv. 2020.
- [30] Viz.ai Granted Medicare New Technology Add-on Payment. PR Newswire. 2021.
- [34] Pierson E, Cutler DM, Leskovec J, Mullainathan S, Obermeyer Z. An algorithmic approach to reducing unexplained pain disparities in underserved populations. Nat Med. 2021;27(1):136-40.(AI 减少不平等的核心案例)
- [35] Gichoya JW, Celi LA. Beyond the AJR: "an algorithmic approach to reducing unexplained pain disparities in underserved populations". AJR Am J Roentgenol. 2021.
- [39] Wawira Gichoya J, McCoy LG, Celi LA, Ghassemi M. Equity in essence: a call for operationalising fairness in machine learning for healthcare. BMJ Health Care Inform. 2021;28(1).
- [40] Liu X, Rivera SC, Moher D, et al. SPIRIT-AI and CONSORT-AI Working Group. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. BMJ. 2020;9(370):m3164.
- [42] Sounderajah V, Ashrafian H, Aggarwal R, et al. Developing specific reporting guidelines for diagnostic accuracy studies assessing AI interventions: the STARD-AI steering group. Nat Med. 2020.
- [43] Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. Ann Intern Med. 2015;162(1):55-63.
- [44] FDA. Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. 2021.
- [45] FTC. Aiming for truth, fairness, and equity in your company's use of AI. 2021.