第 39 章基于 AI 的心血管风险分层（Artificial Intelligence-Based Cardiovascular Risk Stratification）

作者

Abdallah Malkawi, MD —— Division of Cardiology, Department of Medicine, University of Arkansas for Medical Sciences (UAMS), Little Rock, AR, USA。
Zaid Almarzooq, MBBCh —— Brigham and Women's Hospital Heart and Vascular Center, Boston, MA, USA。
Mouaz H. Al-Mallah, MD —— Department of Cardiology, Houston Methodist DeBakey Heart & Vascular Center, Houston, TX, USA。
Subhi J. Al'Aref, MD（通讯作者）—— 同 UAMS。

本章位于 Part III 心脏应用部分，承接第 25-38 章的"器官系统主题"后，转向心血管风险分层——ML 在 EHR、ECG、影像、多组学整合的全面应用。属于"应用 + 综述"性质的章节，是 Part III 的"AI 临床落地"集成章节。Al'Aref 团队是国际 CV AI 风险分层的重要力量。

内容概述

传统 CV 风险评估（Framingham、AHA/ACC ASCVD）基于回归模型，假设线性、可加、无共线性，难处理高维、非线性、异质性数据。本章按"EHR → ECG → 影像 → 基因组"组织 AI 在 CV 风险分层中的应用：

EHR 数据利用：
Byrd 2014 [X4] NLP 提取 Framingham HF 标准（精度 0.925、F-score 0.910）。
Mayampurath 2019 [X8] 把 EHR 转 2D 图像 + CNN 预测院内死亡 AUC 0.91 vs. MEWS 0.76。
Alaa 2019 [X10] UK Biobank 423,604 例 + 473 变量 AutoPrognosis 5 年 CVD AUC 0.774 vs. Framingham 0.724。
原发 CAD 预防：
Ambale-Venkatesh 2017 [X11] MESA 6,184 例 + 735 变量 RF 预测死亡与 CVD 事件（C-index 与 Brier 提升 10–25%）。
Quesada 2019 [X12] ESCARVAL 38,527 例 QDA 5 年 AUC 0.708 vs. SCORE 0.633 / REGICORE 0.634。
Zhao 2019 [X13] Vanderbilt 109,490 例 + 基因组，XGBoost + CNN + 基因组 AUC +2.1%。
继发 CAD 预防（ACS 后）：
Hernesniemi 2019 [X15] 9,077 例 XGBoost 6 月死亡 AUC 0.890 vs. GRACE 0.822。
心衰：
Ahmad 2018 [X16] 44,886 例 Swedish HF Registry，RF 1 年死亡 C-statistic 0.82。
Cikes 2018 [X18] MADIT-CRT 1,106 例聚类识别 CRT-D vs. ICD 受益亚组。
Shah 2017 [X17] 397 例 HFpEF 聚类分 3 表型。
PCI 操作：
Mortazavi 2019 [X20] NCDR 3,316,465 例 PCI XGBoost 大出血 C-statistic 0.81。
ECG / 影像风险预测：
Raghunath 2020 [X26] 1,169,662 ECG DNN 1 年死亡 AUC 0.855。
Kwon 2020 [X28] 22,875 例 KorMI registry ANN MI 后死亡 AUC 0.905。
Samad 2019 [X30] 171,510 患者 TTE RF 5 年死亡 AUC 0.893。
CCTA 风险：
Van Rosendael 2018 [X45] CONFIRM 8,844 例 XGBoost 临床事件 AUC 0.771。
Motwani 2017 [X46] CONFIRM 10,030 例 LogitBoost 5 年死亡 AUC 0.79。
Al'Aref 2020 [X51] CONFIRM 13,054 例 XGBoost 阻塞性 CAD AUC 0.773。
Betancur 2019 [X65] REFINE SPECT 1,160 例 DNN 每患者 AUC 0.81。
MRI：
Chen 2019 [X68] 98 例扩张型心肌病 Naive Bayes AUC 0.877 vs. MAGGIC 0.599。
基因组学：
Dogan 2018 [X74] Framingham 1,545 例 CHD RF 敏感 0.75 / 特异 0.80。

核心方程与概念

1. 传统 vs. ML 风险评分

传统风险评分（Framingham、ACC/AHA ASCVD、SCORE、REGICORE、GRACE、TIMI、MAGGIC）： - 假设：线性、可加、无共线性、变量同质影响 - 限制：无法处理高维、非线性、复杂交互 - 难整合 EHR / 影像 / 基因组

ML 风险评分： - AutoPrognosis：贝叶斯优化集成多 ML 模型 - 监督学习（XGBoost、随机森林、CNN、ANN） - 非监督学习（k-means 聚类）

2. NLP 在 EHR 提取

NLP（自然语言处理）从非结构化医疗笔记提取诊断标准： $$\text{precision} = \frac{TP}{TP+FP}, \quad \text{recall} = \frac{TP}{TP+FN}, \quad F_1 = \frac{2 \cdot \text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}$$

Byrd [X4] 精度 0.925、recall 0.896、F-score 0.910。

3. EHR 转 2D 图像（Mayampurath 2019, [X8]）

把纵向 EHR 数据（156 临床变量 × 48 小时）转 2D 图像，CNN 处理： $$\mathbf{I} \in \mathbb{R}^{156 \times T}, \quad T = 48\,\text{hours}$$

CNN 输出院内死亡概率。AUC 0.91 vs. MEWS 0.76 / SOFA 0.57。

4. AutoPrognosis 框架（Alaa 2019, [X10]）

贝叶斯优化集成多 ML 模型： $$P(y | X) = \sum_{m \in \mathcal{M}} w_m P_m(y | X)$$

其中 $\mathcal{M}$ = {LR, RF, XGBoost, NN, ...}，$w_m$ 由贝叶斯优化学习。

5. 聚类识别 HF 表型

Shah 2017 [X17]：397 例 HFpEF + 临床 + 实验室 + ECG + 超声 + 血流动力学 → 3 表型，调整 BNP / MAGGIC 后仍有显著差异（HR 4.2, 95% CI 2.0–9.1）。

Cikes 2018 [X18]：MADIT-CRT 1,106 例聚类识别 CRT-D vs. ICD 受益亚组。

6. DNN ECG 风险预测（Raghunath 2020, [X26]）

1,169,662 ECG + 253,397 患者 DNN 预测 1 年死亡 AUC 0.855 vs. FRS / CCI。

7. ML 影像风险

研究	数据	模型	任务	AUC
Motwani [X46]	CONFIRM 10,030	LogitBoost	5 年死亡	0.79
Van Rosendael [X45]	CONFIRM 8,844	XGBoost	临床事件	0.771
Al'Aref [X51]	CONFIRM 13,054	XGBoost	阻塞性 CAD	0.773
Betancur [X65]	REFINE SPECT 1,160	DNN	CAD 每患者	0.81
Samad [X30]	TTE 171,510	RF	5 年死亡	0.893
Chen [X68]	cMRI 98	Naive Bayes	DCM 不良事件	0.877

8. 关键概念辨析

"信息增益" vs. "模型增益"（Alaa 2019, [X10]）：在 CV 风险预测中，更多变量比更复杂模型更重要——这与传统"特征工程 + 简单模型"的医学 ML 共识一致。
NLP 提取 vs. 人工标注：NLP 可处理大量非结构化笔记，但精度受语种 / 医院 / 文档格式影响。
EHR 转图像 vs. 表格数据：EHR 转图像可借用图像 CNN，但可能损失时序信息；Zhao [X13] 用时序信息改善 2.1%。
ML 风险评分 vs. 临床决策：ML 给出"风险概率"，临床决策仍需医生判断。
影像 + 临床 vs. 单一模态：CCTA 影像 + 临床数据 ML 比单一模态更准（Motwani [X46] AUC 0.79 vs. CCTA 单独 ~ 0.64）。
ML 在 HFpEF 的"亚组发现"价值：传统 HFpEF 定义（EF ≥ 50%）过于宽泛，聚类发现的表型有助于精准治疗。
"AI 处方" vs. "AI 风险预测"：本章聚焦"风险预测"（Mortazavi 大出血、Hernesniemi ACS 死亡）而非"治疗建议"——后者是更难的问题。

关键结论

传统 CV 风险评分（Framingham、ASCVD、SCORE、GRACE）受限于线性假设、变量少、不整合影像。
AI / ML 在 CV 风险分层上的应用分：EHR 表格、NLP、ECG、影像、多组学、聚类、整合。
Byrd 2014 [X4] NLP 提取 Framingham HF 标准精度 0.925。
Mayampurath 2019 [X8] EHR 转 2D 图像 + CNN 院内死亡 AUC 0.91 vs. MEWS 0.76。
Alaa 2019 [X10] AutoPrognosis UK Biobank 5 年 CVD AUC 0.774 vs. Framingham 0.724——"信息增益" > "模型增益"。
Ambale-Venkatesh 2017 [X11] MESA RF 比 Framingham / ASCVD 提升 10–25%。
Quesada 2019 [X12] QDA 5 年 AUC 0.708 vs. SCORE 0.633。
Hernesniemi 2019 [X15] XGBoost ACS 6 月死亡 AUC 0.890 vs. GRACE 0.822。
Ahmad 2018 [X16] Swedish HF RF 1 年死亡 C-statistic 0.82。
Cikes 2018 [X18] MADIT-CRT 聚类识别 CRT 受益亚组。
Mortazavi 2019 [X20] NCDR XGBoost 大出血 C-statistic 0.81。
Raghunath 2020 [X26] 116 万 ECG DNN 1 年死亡 AUC 0.855。
Kwon 2020 [X28] 22,875 例 KorMI ANN MI 后死亡 AUC 0.905 vs. GRACE / TIMI。
Samad 2019 [X30] 17 万 TTE RF 5 年死亡 AUC 0.893。
Motwani 2017 [X46] CONFIRM LogitBoost 5 年死亡 AUC 0.79 vs. CCTA 单独 0.64。
Al'Aref 2020 [X51] CONFIRM XGBoost 阻塞性 CAD AUC 0.773。
Chen 2019 [X68] cMRI Naive Bayes DCM AUC 0.877 vs. MAGGIC 0.599。
ML 在 CV 风险分层已从"传统评分辅助"扩展到"独立风险预测工具"。

挑战和开放性问题

跨中心 / 跨人群泛化：现有模型多来自欧美 / 大型中心（Vanderbilt、Mayo、UK Biobank、MESA），亚洲人群泛化未充分验证。
EHR 异质性：不同医院 EHR 字段 / 编码差异大，模型难跨机构部署。
影像 + 临床整合的"模态融合"复杂性：CCTA + ECG + 临床多模态融合的工程实现复杂。
ML 模型"黑盒"：临床医生难向患者解释"为什么 ML 说你 30% 1 年死亡"。
法规与责任：ML 风险评分在 FDA 监管下的"持续学习"模式与现行框架不匹配。
聚类分析的"分析师自由度"：簇数选择本身有自由度，跨样本可重复性未充分验证。
HFpEF 亚组的"治疗转化"：ML 发现表型，但表型特异治疗证据稀缺。
基因组数据的"代表性"：Dogan [X74] 等基因组 ML 多来自欧洲血统，跨族群泛化难。
前瞻性 RCT 验证：ML 风险预测工具大多回顾性研究，前瞻性 RCT 验证稀缺。
临床整合路径：ML 风险评分需要集成到 EMR / CDS 系统，工程 + 监管环节需大量工作。
"AI 增强 vs. AI 替代"：ML 风险评分是辅助医生决策还是替代？监管框架未定。
可解释性的"医学特化"：医学 ML 需要"可解释给医生"而非"可解释给工程师"的工具。

个人反思与批判性分析

作者团队的"CV AI 临床中心"地位：Al'Aref 来自 UAMS、Al-Mallah 来自 Houston Methodist、Almarzooq 来自 Brigham——三家都是美国 CV AI 重要中心。本章引用了大量 UAMS / Cedars-Sinai / CONFIRM / MESA 等多中心工作——读者应意识到这是"美国大型中心视角"。
CONFIRM 注册的"代际价值"：CONFIRM 是 CCTA 时代最大的多中心注册（> 25,000 例），本章多次引用（Motwani [X46]、Van Rosendael [X45]、Al'Aref [X51]）——表明 CONFIRM 在 CV AI 时代仍是"金矿"。
"信息增益 > 模型增益"的反潮流启示：Alaa 2019 [X10] 的核心发现是"更多变量比更复杂模型更重要"——这与 AI 时代的"模型为王"叙事相反。在医学领域，临床数据本身比算法更重要——这是医学 ML 的独特性。
"ML 改进 GRACE / TIMI" 的临床意义有限：Hernesniemi 2019 [X15] XGBoost AUC 0.890 vs. GRACE 0.822 看似显著，但 GRACE 本身已被广泛验证。ML 增量价值需与"额外数据收集成本"对比。
"聚类 HF 表型" vs. "精准治疗"差距：Shah 2017 [X17]、Cikes 2018 [X18] 等发现 HF / CRT 亚组，但表型特异治疗（SGLT2、ARNI、CRT）证据稀缺——这是"诊断 AI"超过"治疗 AI"的典型现象。
大规模 ECG / TTE 注册的"基础设施"价值：Raghunath [X26] 用 116 万 ECG、Samad [X30] 用 17 万 TTE 训练——这种规模需要大型医疗系统的多年积累，是中小型中心难复制的"基础设施"。
ML 在 PCI 风险预测的"操作决策"价值：Mortazavi [X20] NCDR XGBoost 大出血预测可帮助医生决定"术后抗凝强度"——这是 ML 风险预测的"直接临床决策"价值，比单纯"风险评分"更有用。
"黑盒" vs. "可解释"的医学 ML 困境：本章多次提到 ML 模型的"黑盒"问题，但解决方案（如 SHAP、LIME）多来自 ML 社区而非医学社区——医学特化的可解释性工具仍需发展。
"AI 处方" vs. "AI 风险预测"：本章聚焦"风险预测"，治疗决策仍是医生 + 患者共同决定。这种"AI 辅助决策"模式是未来医学 AI 的主流。
"AI 万能"与"AI 仅辅助"的两端：本章在 XGBoost、DNN、CNN 风险预测上乐观（已部分商业化），在跨中心泛化、HFpEF 治疗转化、法规监管上保守（仍待验证）。这种"该强则强、该弱则弱"是 CV 风险 AI 的工程现实。
与第 25-38 章的协同：本章是"风险分层"主题专项，与 CT（Ch 25-27）、CMR（Ch 32-36）、核医学（Ch 37）、超声（Ch 38）章节形成"全模态 CV 风险 AI"完整图景。读者通过对比可学会"AI 在不同模态的共性与差异"。
"老牌" vs. "新潮"的代际差异：传统风险评分（Framingham 1967, GRACE 2003）有几十年临床验证，ML 风险评分多在 2010s 起步——临床落地仍需"代际时间"。

重要参考文献

[X1] Goff DC Jr, Lloyd-Jones DM, Bennett G, et al. 2013 ACC/AHA guideline on the assessment of cardiovascular risk. Circulation. 2014;129(25 Suppl 2):S49-73.
[X4] Byrd RJ, Steinhubl SR, Sun J, et al. Automatic identification of heart failure diagnostic criteria, using text analysis of clinical notes from electronic health records. Int J Med Inform. 2014;83(12):983-92.
[X8] Mayampurath A, Sanchez-Pinto LN, Carey KA, et al. Combining patient visual timelines with deep learning to predict mortality. PLoS One. 2019;14(7):e0220640.
[X10] Alaa AM, Bolton T, Di Angelantonio E, et al. Cardiovascular disease risk prediction using automated machine learning: a prospective study of 423,604 UK Biobank participants. PLoS One. 2019;14(5):e0213653.
[X11] Ambale-Venkatesh B, Yang X, Wu CO, et al. Cardiovascular event prediction by machine learning: the multi-ethnic study of atherosclerosis. Circ Res. 2017;121(9):1092-101.
[X12] Quesada JA, Lopez-Pineda A, Gil-Guillén VF, et al. Machine learning to predict 5-year mortality in primary cardiovascular prevention. Int J Med Inform. 2019;131:103937.
[X13] Zhao J, Feng Q, Wu P, et al. Learning from longitudinal data in electronic health record and genetic data to improve cardiovascular event prediction. Sci Rep. 2019;9(1):717.
[X15] Hernesniemi J, Mahdiani S, Tynkkynen JA, et al. Extensive machine learning algorithm-driven description of ACS mortality. J Am Coll Cardiol. 2019;73(9 Suppl 1):A230.
[X16] Ahmad T, Lund LH, Rao P, et al. Machine learning methods improve prognostication, identify clinically distinct phenotypes, and detect heterogeneity in response to therapy in a large cohort of heart failure patients. J Am Heart Assoc. 2018;7(8):e008081.
[X17] Shah SJ, Katz DH, Selvaraj S, et al. Phenomapping for novel classification of heart failure with preserved ejection fraction. Circulation. 2015;131(3):269-79.
[X18] Cikes M, Sanchez-Martinez S, Claggett B, et al. Machine learning-based phenogrouping in heart failure to identify responders to cardiac resynchronization therapy. Eur J Heart Fail. 2019;21(1):74-85.
[X20] Mortazavi BJ, Bucholz EM, Dziura J, et al. Machine learning for prediction of bleeding in acute myocardial infarction patients undergoing percutaneous coronary intervention. JAMA Netw Open. 2019;2(1):e187505.
[X26] Raghunath S, Cerna JUU, Zhang Y, et al. Prediction of mortality from 12-lead electrocardiogram voltage data using a deep neural network. Nat Med. 2020;26(6):886-91.
[X27] Myers PD, Scirica BM, Stultz CM. Machine learning improves risk stratification after acute coronary syndrome. Sci Rep. 2017;7(1):12692.
[X28] Kwon JM, Jeon KH, Kim HM, et al. Deep-learning-based out-of-hospital cardiac arrest prognostic system to predict clinical outcomes. Radiology. 2019;293(1):196-204.
[X30] Samad MD, Ulloa A, Wehner GJ, et al. Predicting survival from large echocardiography and electronic health record datasets: optimization with machine learning. JACC Cardiovasc Imaging. 2019;12(4):681-9.
[X33] Omar AMS, Narula S, Abdel Rahman MA, et al. Echocardiographic phenotyping of HFpEF. JACC Cardiovasc Imaging. 2020;13(2 Pt 1):425-8.
[X45] van Rosendael AR, Maliakal G, Kolli KK, et al. Maximization of the usage of coronary CTA derived plaque information using a machine learning based risk score. JACC Cardiovasc Imaging. 2018;11(2 Pt 1):236-44.
[X46] Motwani M, Dey D, Berman DS, et al. Machine learning for prediction of all-cause mortality in patients with suspected CAD. Eur Heart J. 2017;38(7):500-7.
[X51] Al'Aref SJ, Maliakal G, Singh G, et al. Machine learning of clinical variables and coronary artery calcium scoring for prediction of significant CAD. JACC Cardiovasc Imaging. 2020;13(12):2584-96.
[X65] Betancur J, Otaki Y, Motlagh M, et al. Deep learning for prediction of obstructive disease from fast myocardial perfusion SPECT. Eur J Nucl Med Mol Imaging. 2019;46(3):678-87.
[X68] Chen R, Lu A, Wang J, et al. Using machine learning to predict one-year cardiovascular events in patients with severe dilated cardiomyopathy. ESC Heart Fail. 2019;6(4):747-55.
[X74] Dogan MV, Grumbach IM, West JJ, et al. Machine learning to characterize genetic signatures of coronary artery disease. J Am Heart Assoc. 2018;7(4):e007450.

第 39 章 基于 AI 的心血管风险分层（Artificial Intelligence-Based Cardiovascular Risk Stratification）

作者