第14章：Causal Discovery and Machine Learning – Advanced Deep Learning and Beyond

作者

本章由 Aleksander Molak 撰写。技术审稿：Nicole Königstein。本章核心引用：Geffner et al. (2022) DECI、Park et al. (2022) ICGNN、Lippe et al. (2022) ENCO、Toth et al. (2022) ABCI、Spirtes et al. (2000/2013) FCI、Zhang et al. (2012) KCI、Soleymani et al. (2022) CORTH、Cai et al. (2021) CCANM、Tu et al. (2019) Neuropathic pain、Huang et al. (2021) Arctic Sea Ice、Shen et al. (2020) Alzheimer、Andrews et al. (2020) Tiered background knowledge、Reisach et al. (2021) "Beware of the Simulated DAG"、Zheng et al. (2018/2020) NOTEARS、Kalainathan et al. (2022) SAM、Kingma et al. (2016) IAF、Goodfellow et al. (2020) GAN。

内容概述

本章是因果发现的"高级篇"——针对 Ch 13 算法的核心局限（无 hidden confounding + 需要 i.i.d. 观测 + DAG-ness 约束），介绍三个层次的突破：(1) DECI（Deep End-to-end Causal Inference, Geffner et al. 2022）——深度学习 + Bayesian 框架 + 因果自回归流（Causal Autoregressive Flow）+ 端到端联合 discovery + ATE/CATE 估计；(2) FCI 算法（Spirtes-Glymour 算法）——唯一在 hidden confounding 下仍能保证渐近正确性的 constraint-based 方法；(3) ENCO + ABCI——结合 observational + interventional 数据的混合方法。本章比 Ch 13 更技术性——直接用 PyTorch 实现 DECI 的训练循环（augmented Lagrangian + Gumbel-Softmax + GibbsDAGPrior + ICGNN）。最后讨论真实数据上因果发现的 5 大挑战：Reisach 2021 "varsortability"、benchmark 不足、混合变量、hidden confounding、hyperparameter 敏感。

核心方程与概念

DECI 的 DAG-ness score（继承 NOTEARS）： $$\mathcal{R}(A) = \mathrm{tr}(e^{A \odot A}) - d$$ 当且仅当 $\mathcal{R}(A) = 0$ 时 $A$ 是 DAG。
DECI 的 sparsity score（用 Frobenius 范数）： $$\mathcal{S}(A) = \|A\|_F^2 = \sum_{i,j} A_{ij}^2$$ 作用：促进 minimality 假设——稀疏图比稠密图更可能。
DECI 的损失函数（4 项）： $$\mathcal{L}(A) = \underbrace{\alpha \mathcal{R}(A)}_{\text{DAG linear}} + \underbrace{\rho \mathcal{R}(A)^2}_{\text{DAG quadratic}} + \underbrace{\lambda \mathcal{S}(A)}_{\text{sparsity}} + \underbrace{\text{DataFit}}_{\text{likelihood-based}}$$
$\alpha$、$\rho$ 随训练动态增加（augmented Lagrangian scheduler）——训练早期允许非 DAG，后期强制 DAG。
$\lambda$ 保持常数。
Causal Autoregressive Flow（Khemakhem et al. 2021, CAREFL）：
思想：SCM 中每个节点的值只依赖其父节点——这与 autoregressive flow 中"变量 $X_k$ 的分布只依赖先于它的变量"结构同构。
DECI 的核心创新：把 autoregressive flow + causal ordering 结合 + 后验分布 over graphs（Bayesian 化）。
DECI 的 3 个 SEM 模块：
adjacency module（cd.ENCOAdjacencyDistributionModule）——参数化图结构。
functional module（ICGNN，Input Convex Graph Neural Network, Park et al. 2022）——非线性关系。
noise module（cd.JointNoiseModule）——支持 Gaussian / Spline 噪声分布。
DECI 的核心超参（Molak 实践调优）：
gumbel_temp=0.25：Gumbel-Softmax 温度（控制离散度）。
averaging_period=10：graph averaging 周期。
prior_sparsity_lambda=5.0：sparsity 系数。
init_rho=1.0, init_alpha=0.0：augmented Lagrangian 初始值。
batch_size=512（Molak 发现大 batch 对小图更稳）。
embedding_size=8（Molak 发现 32 维 embedding 让模型不稳定）。

DECI 的训练循环（PyTorch Lightning 风格）：

for epoch in range(max_epoch):
    for batch in dataloader:
        optimizer.zero_grad()
        sem_distribution = sem_module()
        sem, *_ = sem_distribution.relaxed_sample(
            temperature=gumbel_temp  # Gumbel-Softmax
        )
        batch_log_prob = sem.log_prob(batch).mean()
        sem_distribution_entropy = sem_distribution.entropy()
        prior_term = prior.log_prob(sem.graph)
        objective = (-sem_distribution_entropy - prior_term) / num_samples - batch_log_prob
        constraint = calculate_dagness(sem.graph)
        loss = auglag_loss(objective, constraint / num_samples)
        loss.backward()
        optimizer.step()
        scheduler.step(optimizer, auglag_loss, loss.item(), constraint.item())

Gumbel-Softmax trick：
问题：从离散分布采样不可微——梯度无法回传。
解决：用 Gumbel-Softmax 近似——$\mathrm{Softmax}((\log p + G)/\tau)$，$\tau$ 越小越接近 one-hot。
DECI 用：sem_distribution.relaxed_sample(temperature=0.25)。
专家知识注入（DECI）：3 个矩阵 + 1 个 scale：
expert_matrix：A[i,j]=1 表示"边 $i \to j$ 存在"——其他位置为 0。
relevance_mask：A[i,j]=1 表示"模型应考虑此 entry"——可以包含 expert 边的反向。
confidence_matrix：weighting relevant entries 的 confidence in [0, 1]。
scale（默认 5.0）：专家 loss 项的权重——越大专家 prior 越重。

Causica API：

expert_knowledge = cd.ExpertGraphContainer(
    dag=expert_matrix,
    mask=relevance_mask,
    confidence=confidence_matrix,
    scale=5.
)

DECI 的 GibbsDAGPrior：
把专家图作为 prior → 训练中影响 loss。
生产启示：DECI 的 prior 注入比 gCastle PC 的 prior 更灵活（confidence 连续值 + scale 参数）——是进阶 hybrid 方法。
DECI 是 end-to-end 框架：
不只 discovery——还能估计 ATE（average treatment effect）和 CATE（conditional ATE）。
生产含义：一个模型同时给出 graph + treatment effect——减少"discovery → inference"两阶段误差积累。
FCI 算法（Fast Causal Inference, Spirtes et al. 2000/2013）：
核心思想：是 PC 算法的"扩展"——支持 inducing path graphs。
4 种 edge type（causal-learn 记号）：
- $G_{ij}=-1, G_{ji}=1$：$i$ 是 $j$ 的 cause
- $G_{ij}=2, G_{ji}=1$：$j$ 不是 $i$ 的祖先（"o->" 标记）
- $G_{ij}=2, G_{ji}=2$：没有 d-separating set（"o-o" 标记，可能有隐变量）
- $G_{ij}=1, G_{ji}=1$：有 hidden common cause（"---" 标记）
理论保证：在 causal sufficiency 违反时仍渐近正确——这是与 PC 的核心区别。
限制：(a) 仍假设 faithfulness；(b) 输出可能不完整（部分边未定向）；(c) 输出未必比 PC 多。
FCI 的 CI 测试选择：
KCI（Kernel-based CI test, Zhang et al. 2012）——强大、灵活，可处理复杂分布；慢（$n$ 大时）。
Fisher's Z（Fisher 1921）——快，但对非高斯数据略不稳。
生产建议：$n < 1000$ 用 KCI，$n \geq 5000$ 用 Fisher's Z。

FCI 的专家知识注入（causal-learn API）：

prior_knowledge = BackgroundKnowledge()
prior_knowledge.add_forbidden_by_node(GraphNode('X2'), GraphNode('X4'))
prior_knowledge.add_required_by_node(GraphNode('X1'), GraphNode('X3'))
g, edges = fci(dataset, independence_test_method='fisherz', background_knowledge=prior_knowledge)

Tiered background knowledge（Andrews et al. 2020）：指定"tier ordering"——哪些变量在因果序中"先"、哪些"后"——比单纯指定边更强大的 prior。生产意义：在医学上"基因 → 蛋白质 → 表型"是天然 tier order。
CCANM（Confounding Cascade Nonlinear Additive Noise Model, Cai et al. 2021）：
ANM 家族 + VAE 框架。
可处理 mediation + confounding 场景。
经验上较大样本（5000–6000 obs）下表现优。
CORTH（Soleymani et al. 2022, MIT）：
基于 DML 框架的 causal feature selection。
识别目标变量的"直接原因"。
允许 hidden confounding 在 covariates 间，但不允许 confounder 影响 target。
不假设 faithfulness、不假设 covariates 间 acyclical、允许非线性。
限制：要求目标变量不是任何节点的 descendant——这一限制在生物医学中常不满足。
ENCO（Efficient Neural Causal Discovery, Lippe et al. 2022）：
核心创新：separately parameterize edge existence and direction——把"是否有边"和"边方向"分别建模。
支持观测 + 干预 + 混合 + 隐藏变量。
在所有变量都有干预时保证收敛到正确 DAG；部分干预也能用。
离散 / 连续 / 混合变量都支持。
生产实践：graph ≤ 1000 nodes 时几乎无误差。
ABCI（Active Bayesian Causal Inference, Toth et al. 2022）：
完全 Bayesian 框架。
不假设 acyclicity、不假设 hidden confounding 的形式。
假设非线性 + homoscedastic 噪声。
核心优势：(a) 不必估计整个图——只关注特定 causal query；(b) sequential active experimentation——主动设计实验减少不确定性；(c) 支持多种 query 类型（discovery / partial discovery / SCM learning）。
生产意义：ABCI 是"data-efficient" causal discovery——适合实验昂贵的场景（如医学）。
DECI vs ENCO vs ABCI 对比：

算法	框架	隐变量	干预数据	Bayesian	假设
DECI	Deep learning + AL	不支持	不支持	是	无 hidden conf, nonlinear + additive noise
ENCO	Continuous opt	可扩展	是	否	DAG-ness, partial intervention
ABCI	Bayesian + active	灵活	是（主动设计）	是	nonlinear + homoscedastic noise
FCI	Constraint-based	支持	不支持	否	faithfulness
CCANM	ANM + VAE	支持（部分）	不支持	否	additive noise

真实数据上的因果发现：5 大挑战（Molak 总结）：
Reisach 2021 "varsortability"——合成数据中的"未意图规律性"被算法利用；归一化后性能崩溃。
Benchmark 不足——真实因果结构的数据稀缺，导致无法准确评估算法。
混合变量（离散 + 连续）——多数算法不支持。
Hidden confounding——只能 FCI / CCANM / CORTH 等部分处理。
Hyperparameter 敏感——Huang et al. 2021 Arctic Sea Ice 实验显示 NOTEARS / DAG-GNN 对超参变化敏感。
真实数据 benchmark 案例（Molak 总结）：
Tu et al. 2019 neuropathic pain（200 变量，binary）：FCI / RFCI / PC / GES 表现差，F1 在 0.01–0.32 之间，需 n > 16,000 才改善。
Huang et al. 2021 Arctic Sea Ice：NOTEARS / DAG-GNN 表现NHD = 0.3——但对超参敏感。
Shen et al. 2020 Alzheimer's：FCI 表现差（precision 0.46–0.76, recall 0.6–0.74）但加 expert knowledge 后提升——再次确认 hybrid 方法价值。

关键结论

DECI 是"end-to-end"因果框架——同时完成 discovery + ATE/CATE 估计，避免两阶段误差积累。生产中：(a) 用 ICGNN 替代 MLP 拟合非线性；(b) 优先用 Spline noise（Gaussian 不够灵活）；(c) 用 Gumbel-Softmax 解决离散采样的不可微问题。
DECI 的 Bayesian 框架 + prior 注入比 gCastle PC 更灵活——DECI 的 confidence_matrix + scale 是进阶 hybrid 方法。生产中：专家给"边存在"的 confidence（0–1）+ scale=5 让 prior 足够强。
FCI 是 hidden confounding 下的"金标准"算法——在 causal sufficiency 违反时仍渐近正确。代价：可能不完整（部分边未定向）、需要 faithfulness、CI test 计算量。生产建议：先用 FCI 得到"hints"——再传入 PC / LiNGAM / DECI 做精细化。
ENCO 的"边存在 + 方向"独立参数化是创新点——比单一矩阵参数化更灵活。生产中：在有完整干预数据时（医学 RCT、经济政策评估），ENCO 是首选。
ABCI 的"data-efficient + active"特性适合实验昂贵场景——它主动设计实验减少不确定性，比一次性 random experimentation 更高效。生产中：医学场景下 ABCI 是"个性化临床试验"的方向。
CCANM / CORTH 等"小众算法"在特定场景优——CCANM 在 cascade mediation 场景；CORTH 在 causal feature selection 场景。生产建议：评估"我的问题匹配哪个算法"——不要默认用主流算法。
Hyperparameter 敏感性是真实数据的核心痛点——Huang et al. 2021 报告 NOTEARS / DAG-GNN 在 Arctic Sea Ice 上"对超参敏感"。生产建议：(a) 在与目标数据同分布的 holdout set上调超参；(b) 用 multi-seed + 报告 mean ± std；(c) 优先用 FCI 等无超参算法作为 baseline。
真实数据上因果发现的 5 大挑战（Molak 总结）提示：(a) 不要相信 synthetic benchmark F1；(b) 准备好接受"F1 = 0.3"的真实结果；(c) 一定要加 expert knowledge——Molak 多次强调"expert knowledge is invaluable"。
DECI / ENCO / FCI / ABCI 是因果发现的"四大前沿"——分别代表"deep learning"、"neural + interventional"、"constraint + hidden conf"、"Bayesian + active"路线。生产建议：(a) 同时跑多种算法；(b) 共识边 high-confidence；(c) 不可共识边 + expert review + 实验验证。
从 Ch 13 到 Ch 14 的演进路径：PC (constraint) → GES (score) → LiNGAM (functional) → NOTEARS / GOLEM (gradient) → DECI (deep) → FCI (hidden conf) → ENCO (interventional) → ABCI (active)。每一步都解决前一步的局限——是因果发现方法论的"层次结构"。

挑战和开放性问题

DECI 的 hyperparameter 敏感性：Molak 强调"initial hyperparameter settings can make or break the results"——embedding size、batch size、gumbel_temp、prior_sparsity_lambda 都需要精调。生产中：(a) 用 Bayesian optimization 调超参；(b) 在多个 hyperparameter setting 下报告 F1 ± std；(c) 用早停（early stopping）避免过拟合。
DECI 不支持 hidden confounding：与 PC / GES / LiNGAM 一样——仍需 causal sufficiency。生产中：先用 FCI 检查是否需要 hidden conf 处理，再用 DECI。
DECI 的非参数假设：要求 nonlinear + additive noise——当数据不满足时，理论保证失效。生产中：先做 residual analysis（用 GCM test 检验 independence）。
FCI 的 faithfulness 依赖：与 PC 一样假设 faithfulness。生产中：在 finite sample 下用 HSIC 替代 $\chi^2$ 等 parametric CI tests。
FCI 的输出不完整性：可能给出 MEC 而非 DAG——专家必须手动 orient remaining edges。生产中：FCI 输出 + expert orient 是工业级工作流。
ENCO 需要干预数据：在纯观测数据上 ENCO 退化为普通方法。生产中：评估"是否有 RCT / A/B test 数据"——没有则 ENCO 不可用。
ABCI 的非参数 + homoscedastic 噪声假设：医学数据常有 heteroscedastic 噪声（如年龄相关方差增加）。生产中：先做 variance test（Levene's test）。
CCANM 的样本量要求：5000–6000 obs 才能稳定——小样本不可用。生产中：用 bootstrap sub-sampling 检验稳定性。
CORTH 的 "target 不能是 descendant" 限制：在生物医学中常违反（如疾病症状反向影响风险因子）。生产中：在违反假设时 CORTH 不可用。
混合变量处理不成熟：除 ENCO 外，多数算法不支持混合变量。生产中：用 one-hot encoding 把类别变连续会破坏"无序类别"语义。
真实数据 benchmark 不足：Tu et al. 2019 / Huang et al. 2021 / Shen et al. 2020 是少数公开 case。生产中：在数据隐私允许下，鼓励团队贡献 case study——这是推动领域发展的关键。
多算法共识的工程化缺失：Molak 提到"consensus edges"但没有标准 pipeline。生产建议：自己实现 multi-algorithm + consensus（如 PC ∩ GES ∩ GOLEM 的 high-confidence set）。

个人反思与批判性分析

本章是因果发现方法论的"前沿"——DECI / FCI / ENCO / ABCI 各自代表不同范式。值得深入讨论的几个层面：

DECI 的"end-to-end"哲学是 Pearl 框架与 ML 融合的"金标准"——不把发现和推断分成两阶段，避免误差积累。生产含义：(a) 优先 end-to-end 框架（DECI / RealCause / TARNet）；(b) 两阶段方法（先 PC → 再 do-calculus）有"误差传播"问题。
DECI 的 Bayesian 后验 over graphs 是工程化重大突破——传统方法给"单一 best graph"，DECI 给"graph 上的分布"。生产中：在不确定性高的领域（如医学），report graph posterior 而不是 single graph——让下游决策者了解不确定性。
Gumbel-Softmax 解决离散采样的不可微问题是 ML 的通用技巧——任何"离散选择 + 梯度下降"的问题（如 neural architecture search / discrete latent variable）都可用。生产中：用 Gumbel-Softmax 替换 argmax + straight-through estimator——更稳定。
FCI 的"4 种 edge type"是因果表示的扩展——比 PC 的"有向 / 无向"二分更丰富。生产含义：在 hidden conf 场景下，FCI 的"o-o"、"---"边直接暴露"unobserved confounder 存在"——这是比 PC 更诊断性的输出。
Tiered background knowledge（Andrews et al. 2020）是 FCI 的关键增强——在生物医学中"基因 → 蛋白质 → 表型"的 tier order 是天然 prior。生产建议：在 domain 知识中提取 tier order——比"边 prior"更稳定。
ENCO 的"边存在 + 方向"独立参数化是 SOTA 设计——比 NOTEARS 的"单一矩阵"更灵活。生产含义：在有干预数据场景下，ENCO 比 NOTEARS 更优。
ABCI 的"active experimentation"是个性化医学的未来——它主动设计实验减少不确定性，比随机分组效率高 5–10x。生产中：医学 RCT 设计可借鉴 ABCI 的"sequential causal query"——为精准医学打开门。
真实数据 5 大挑战的核心是"benchmark 不足"——Molak 反复强调"we still haven't reached the stage of a fully automated scientist"。生产含义：(a) 准备接受"F1 = 0.3"；(b) 把因果发现定位为"工具"而非"解决方案"——专家 review 仍是必须的。
Molak 多次强调"expert knowledge is invaluable"——Shen et al. 2020 的 Alzheimer's 实验显示 FGES 在加 expert knowledge 后 precision 从 0.46 → 0.76。生产启示：因果发现的"成功" = 算法 + 专家 + 数据三者协同——纯算法主义失败，纯专家主义慢。
混合方法是工程化金标准——专家 + 算法 + 实验三件套，DECI 的 confidence_matrix + scale 是"专家 + 算法"的工程化实现。生产建议：任何 causal discovery 项目必须有"专家 prior 注入"环节——这是 Ch 13 + Ch 14 共同的工程化突破。
对本人的研究启发：我做血管生物力学时，F1 = 0.3 的现实常常出现——Reisach 2021 的"varsortability"在生理数据中可能更严重（生理参数有强相关 + 时序自相关）。DECI 的 end-to-end + 干预数据 + Bayesian 框架是适合医学场景的路线——但需要先解决"医学干预数据稀缺"问题。FCI 的 hidden conf 检测 + tiered background knowledge（基因 → 蛋白质 → 表型）是我未来项目的具体方向。
对本章的整体反思：Molak 在 Ch 14 的最后说"we still haven't reached the stage of a fully automated scientist, but I believe that causal discovery research can move us a bit closer toward this milestone"——这是诚实的"领域状态报告"。生产中：把因果发现作为"决策支持工具"——不是黑盒自动化，而是"专家 + 算法 + 实验"的协同。
本章的"工程价值排序"：(a) DECI end-to-end（高——避免误差积累）；(b) FCI hidden conf detection（高——医学场景刚需）；(c) ENCO 在干预数据下（中高——临床试验 / A/B test 场景）；(d) ABCI active experimentation（中——长期方向）；(e) CCANM / CORTH（低——特定场景）。
未来 3–5 年的发展方向（基于本章内容）：(a) Foundation models for causal discovery（用 LLM 先验指导 discovery）；(b) Mixed variable types natively；(c) Real-world benchmark datasets（开源案例）；(d) AutoML for causal discovery（自动选算法 + 调超参）；(e) Causal + RL 融合（ABCI 已在做）。

重要参考文献

[X1] Geffner, T., Antorán, J., Foster, A., Gong, W., Ma, C., Kıcıman, E., Sharma, A., Lamb, A., Kukla, M., Pawlowski, N., Allamanis, M., & Zhang, C. (2022). Deep End-to-end Causal Inference. arXiv — DECI 原始论文。
[X2] Park, J., Song, C., & Park, J. (2022). Input Convex Graph Neural Networks: An Application to Optimal Control and Design Optimization. OpenReview — ICGNN 架构。
[X3] Khemakhem, I., Monti, R., Leech, R., Coppi, A., & Monti, R. (2021). Causal Autoregressive Flows. AISTATS 2021 — CAREFL 因果自回归流。
[X4] Lippe, P., Cohen, T., & Gavves, E. (2022). Efficient Neural Causal Discovery without Acyclicity Constraints. arXiv — ENCO 算法。
[X5] Toth, C., Lorch, L., Knoll, C., Krause, A., Pernkopf, F., Peharz, R., & Von Kügelgen, J. (2022). Active Bayesian Causal Inference. arXiv — ABCI 算法。
[X6] Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search. MIT Press — FCI 算法原始论文。
[X7] Spirtes, P., Meek, C., & Richardson, T. S. (2013). Causal Inference in the Presence of Latent Variables and Selection Bias. arXiv — FCI 理论扩展。
[X8] Zhang, K., Peters, J., Janzing, D., & Schölkopf, B. (2012). Kernel-based Conditional Independence Test and Application in Causal Discovery. arXiv — KCI 测试。
[X9] Soleymani, A., Raj, A., Bauer, S., Schölkopf, B., & Besserve, M. (2022). Causal Feature Selection via Orthogonal Search. TMLR — CORTH 算法。
[X10] Cai, R., Qiao, J., Zhang, K., Zhang, Z., & Hao, Z. (2021). Causal Discovery with Cascade Nonlinear Additive Noise Models. ACM TIST — CCANM 算法。
[X11] Tu, R., Zhang, K., Bertilson, B., Kjellstrom, H., & Zhang, C. (2019). Neuropathic Pain Diagnosis Simulator for Causal Discovery Algorithm Evaluation. NeurIPS 32 — 神经病理性疼痛 benchmark。
[X12] Huang, Y., Kleindessner, M., Munishkin, A., Varshney, D., Guo, P., & Wang, J. (2021). Benchmarking of Data-Driven Causality Discovery Approaches in the Interactions of Arctic Sea Ice and Atmosphere. Frontiers in Big Data, 4 — 北极海冰 benchmark。
[X13] Shen, X., Ma, S., Vemuri, P., & Simon, G. (2020). Challenges and Opportunities with Causal Discovery Algorithms: Application to Alzheimer's Pathophysiology. Scientific Reports, 10(1), 2975 — 阿尔茨海默症 benchmark。
[X14] Andrews, B., Spirtes, P., & Cooper, G. F. (2020). On the Completeness of Causal Discovery in the Presence of Latent Confounding with Tiered Background Knowledge. AISTATS 2020 — Tiered background knowledge。
[X15] Reisach, A. G., Seiler, C., & Weichwald, S. (2021). Beware of the Simulated DAG! Varsortability in Additive Noise Models. arXiv — "varsortability" 现象。
[X16] Zheng, X., Aragam, B., Ravikumar, P., & Xing, E. P. (2018). DAGs with NO TEARS: Continuous Optimization for Structure Learning. NeurIPS 2018 — NOTEARS。
[X17] Zheng, X., Dan, C., Aragam, B., Ravikumar, P., & Xing, E. P. (2020). Learning Sparse Nonparametric DAGs. AISTATS 2020 — 非参数 NOTEARS 扩展。
[X18] Kalainathan, D., Goudet, O., Guyon, I., Lopez-Paz, D., & Sebag, M. (2022). Structural Agnostic Modeling: Adversarial Learning of Causal Graphs. arXiv — SAM 算法（隐式引用）。
[X19] Kingma, D. P., Salimans, T., Jozefowicz, R., Chen, X., Sutskever, I., & Welling, M. (2016). Improved Variational Inference with Inverse Autoregressive Flow. NeurIPS 29 — 自回归流基础。
[X20] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2020). Generative Adversarial Networks. Communications of the ACM, 63(11), 139-144 — GAN 基础。
[X21] McLachlan, G. J., Lee, S. X., & Rathnayake, S. I. (2019). Finite Mixture Models. Annual Review of Statistics and Its Application, 6(1), 355-378 — 生成模型起源。
[X22] Chickering, D. M. (2003). Optimal Structure Identification with Greedy Search. JMLR, 3, 507-554 — GES（隐式引用，与 FCI 4 种 edge type 对照）。
[X23] Fisher, R. A. (1921). On the "Probable Error" of a Coefficient of Correlation Deduced from a Small Sample. Metron, 1, 1-32 — Fisher's Z-test 原始论文。
[X24] Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press — 因果图论基础。
[X25] Pearl, J., & Mackenzie, D. (2019). The Book of Why. Penguin Books — 因果推断科普。
[X26] Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC — 隐式引用。
[X27] Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of Causal Inference: Foundations and Learning Algorithms. MIT Press — Additive noise + identifiability 基础。
[X28] Spirtes, P. (2010). Introduction to Causal Inference. Journal of Machine Learning Research, 11, 1643-1662 — FCI 教程（隐式引用）。
[X29] Zhang, K., Zhu, S., Kalander, M., Ng, I., Ye, J., Chen, Z., & Pan, L. (2021). gCastle: A Python Toolbox for Causal Discovery. arXiv — gCastle 库（隐式引用）。
[X30] Goudet, O., Kalainathan, D., Caillou, P., Guyon, I., Lopez-Paz, D., & Sebag, M. (2018). Causal Generative Neural Networks. arXiv — CGNN 算法（隐式引用，DECI 的精神祖先）。
[X31] Nemirovski, A. (1999). Optimization II: Standard Numerical Methods for Nonlinear Continuous Optimization [Lecture notes] — Augmented Lagrangian 方法（隐式引用）。
[X32] Sharma, A., & Kiciman, E. (2020). DoWhy: An End-to-End Library for Causal Inference. arXiv — DoWhy 库（隐式引用）。
[X33] Battocchi, K., Dillon, E., Hei, M., Lewis, G., Oka, P., Oprescu, M., & Syrgkanis, V. (2019). EconML: A Python Package for Causal Machine Learning. ArXiv — EconML 库（隐式引用）。
[X34] Cinelli, C., & Hazlett, C. (2020). Making Sense of Sensitivity: Extending Omitted Variable Bias. JRSS B, 81(1), 39-67 — 隐式引用，敏感性的现代框架。
[X35] Pearl, J. (1995). Causal Diagrams for Empirical Research. Biometrika, 82(4), 669-688 — 后门调整（隐式引用）。