第十二章：深度学习应用

1. 引言

深度学习自2006年复兴以来，已从实验室走向千家万户，深刻改变了人工智能在各领域的实践格局。本章系统梳理深度学习在大规模计算、计算机视觉、语音识别、自然语言处理以及推荐系统五大核心领域的关键技术、代表性模型与前沿进展。

深度学习应用的共同特征是：海量数据驱动的表示学习、端到端的建模范式、以及层次化的特征抽象。这三大特征使得深度模型能够在计算机视觉的像素级输入、语音信号的时序波形、自然语言的离散符号序列等异构数据上，均取得远超传统方法的效果。

应用领域	核心任务	代表模型/技术	评价指标
计算机视觉	目标检测、语义分割、风格迁移、图像 caption	R-CNN、Mask R-CNN、U-Net、GAN、Show-and-Tell	mAP、IoU、BLEU、CIDEr
语音识别	语音转文本	Deep Speech、wav2vec 2.0、CTC	WER（词错误率）
自然语言处理	机器翻译、文本分类、命名实体识别	Transformer、BERT、GPT	BLEU、ROUGE、F1、Accuracy
推荐系统	用户行为预测与 item 推荐	协同过滤、矩阵分解、Wide & Deep	AUC、Recall@K、MRR
大规模深度学习	分布式训练	数据并行、模型并行、流水线并行、ZeRO	加速比、扩展效率

2. 大规模深度学习

2.1 GPU 集群与分布式训练背景

训练一个现代深度神经网络（如 ResNet-50）在单张 GPU 上可能耗时数小时到数天不等。当模型规模扩展到数十亿参数（如 GPT-3 拥有 1750 亿参数）时，单卡训练在物理上已不可能。大规模深度学习的核心问题在于：如何利用数百至数千块加速器的聚合算力，高效完成超大规模模型与数据集的训练。

GPU 集群通常通过高速互联网络（如 NVIDIA NVLink、InfiniBand）连接数十至数百台服务器，每台服务器配备多块 GPU。分布式训练的挑战不仅在于算力聚合，更在于：如何维持多设备间的高速梯度同步、保持数值稳定性、以及在扩展性与收敛性之间取得平衡。

2.2 数据并行

数据并行（Data Parallelism） 是当前工业界最广泛使用的分布式训练策略。其核心思想是：将训练数据划分为多个子集，每个计算节点持有模型的一个完整副本，仅在不同节点上处理不同的数据分批。梯度同步遵循以下流程：

前向传播：各节点独立对本地 mini-batch 执行前向计算，得到局部损失 $\mathcal{L}_i$。
反向传播：各节点独立计算本地梯度 $\nabla \mathcal{L}_i$。
梯度同步：通过 AllReduce 操作将各节点的梯度汇总求平均：

\[ \nabla \mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \nabla \mathcal{L}_i \]

其中 $N$ 为节点数量。同步完成后，各节点以相同的学习率更新模型参数，确保各副本始终保持一致。

同步 SGD（每步等待所有节点完成梯度同步）保证了模型收敛行为与单卡训练等价，但存在木桶效应：最慢的节点将拖慢整体训练速度。异步 SGD允许各节点独立更新参数，用陈旧梯度替代最新梯度，虽可提升吞吐量，但可能引入梯度陈旧性（gradient staleness）问题，导致收敛精度下降。

2.3 模型并行与流水线并行

当单个模型过大、无法容纳于单卡显存时，需要对模型本身进行分片：

模型并行（Model Parallelism）：将神经网络的不同层或不同参数张量切分到不同设备上。前向传播时，数据在各设备间依次流动；反向传播同理。例如，将一个大型嵌入表或 Transformer 的全部注意力头分布在多张 GPU 上。

流水线并行（Pipeline Parallelism）：将模型按层划分为多个阶段（stage），每个阶段部署在不同设备上。数据以 micro-batch 为单位在流水线中流动，类似于工业制造中的装配线。GPipe 提出了 micro-batch 流水线机制，将一个 mini-batch 再细分为多个 micro-batch，使得不同设备可以并行处理不同 micro-batch，显著提升了设备利用率：

\[ T_{\text{pipeline}} \approx T_{\text{forward}} + T_{\text{backward}} + (P-1) \cdot T_{\text{micro}} \]

其中 $P$ 为流水线阶段数，$T_{\text{micro}}$ 为单个 micro-batch 的处理时间。

2.4 混合并行与 ZeRO

现代大模型训练通常综合使用数据并行、模型并行与流水线并行，形成混合并行（Hybrid Parallelism）策略。微软 DeepSpeed 框架提出的 ZeRO（Zero Redundancy Optimizer） 通过对优化器状态、梯度和模型参数进行分片，在数据并行的每个节点上仅保留 $1/N$ 的冗余数据，突破了数据并行的显存瓶颈：

ZeRO Stage	分片内容	显存减少比例
ZeRO-1	优化器状态	$N$ 倍
ZeRO-2	优化器状态 + 梯度	$2N$ 倍
ZeRO-3	优化器状态 + 梯度 + 参数	$N$ 倍（极致分片）

3. 计算机视觉

3.1 目标检测

目标检测的任务是在图像中定位出所有感兴趣物体的边界框（Bounding Box） 并预测其类别标签。深度学习驱动的目标检测算法演进可分为两条主线：

两阶段检测器（Two-stage Detector）：以 R-CNN 系列为代表。第一阶段使用区域提议网络（Region Proposal Network, RPN） 生成候选框；第二阶段对每个候选框进行类别分类与边界框精修。Faster R-CNN 实现了端到端训练的完全两阶段框架：

\[ L = L_{\text{rpn cls}} + L_{\text{rpn bbox}} + L_{\text{roi cls}} + L_{\text{roi bbox}} \]

其中 $L_{\text{rpn cls}}$ 和 $L_{\text{roi cls}}$ 为分类损失，$L_{\text{rpn bbox}}$ 和 $L_{\text{roi bbox}}$ 为边界框回归损失（通常使用 smooth-$L_1$ 损失）。

单阶段检测器（One-stage Detector）：以 YOLO 和 SSD 为代表，在单次前向传播中同时预测所有边界框和类别，牺牲一定精度换取实时性。YOLOv8 通过 Anchor-free 机制避免了预设锚框的繁琐调参过程。

评价目标检测性能的核心指标是 mAP（mean Average Precision），即各类别 AP 的平均值：

\[ \text{AP} = \int_0^1 p(r) \, dr, \quad \text{mAP} = \frac{1}{K} \sum_{k=1}^{K} \text{AP}_k \]

其中 $p(r)$ 为精确率-召回率曲线，$K$ 为类别数量。

3.2 语义分割

语义分割要求对图像中每个像素预测其语义类别标签。全卷积网络（FCN）是该任务的奠基性工作，它将分类网络的全连接层替换为卷积层，实现像素级密集预测。

U-Net 采用编码器-解码器（Encoder-Decoder）结构，通过跳跃连接（Skip Connection）融合低层细节位置信息与高层语义上下文，在医学图像分割等领域表现突出：

\[ y = \text{Decoder}(\text{Encoder}(x) \oplus \text{Skip}(x)) \]

其中 $\oplus$ 表示通道维度上的拼接操作。

DeepLab 系列引入空洞卷积（Atrous Convolution） 和金字塔池化模块（ASPP），在不损失分辨率的前提下扩大感受野，有效捕捉多尺度上下文信息。

语义分割的标准评价指标是 IoU（Intersection over Union）：

\[ \text{IoU} = \frac{|A \cap B|}{|A \cup B|} \]

其中 $A$ 为预测分割区域，$B$ 为真实标注区域。

3.3 风格迁移

风格迁移（Style Transfer）旨在将一幅图像的内容与另一幅图像的艺术风格分离并重新组合。Gatys 等人提出的神经风格迁移（Neural Style Transfer） 基于 VGG 网络的卷积特征，构建如下优化目标：

\[ \mathcal{L}_{\text{total}} = \alpha \cdot \mathcal{L}_{\text{content}} + \beta \cdot \mathcal{L}_{\text{style}} + \gamma \cdot \mathcal{L}_{\text{TV}} \]

其中内容损失衡量生成图像 $G$ 与内容图像 $C$ 在某层特征空间的欧氏距离：

\[ \mathcal{L}_{\text{content}} = \frac{1}{2} \sum_{i,j} (F_{ij}^{\ell}(G) - F_{ij}^{\ell}(C))^2 \]

风格损失基于 Gram 矩阵 $G_{ij}^{\ell} = \sum_k F_{ik}^{\ell} F_{jk}^{\ell}$，衡量特征通道间的相关性分布差异：

\[ \mathcal{L}_{\text{style}} = \sum_{\ell} \frac{1}{4N_{\ell}^2 M_{\ell}^2} \sum_{i,j} (G_{ij}^{\ell}(S) - G_{ij}^{\ell}(G))^2 \]

总变差损失 $\mathcal{L}_{\text{TV}}$ 促进生成图像的空间平滑性。

GAN（生成对抗网络） 范式进一步催生了如 Pix2Pix、CycleGAN 等条件图像生成模型，以及 StyleGAN 系列在高质量人脸与艺术风格操控方面的突破性应用。

3.4 图像描述与 Captioning

图像描述（Image Captioning）要求模型生成自然语言形式对图像内容的完整描述。编码器-解码器（Encoder-Decoder）架构是该任务的主导框架：

编码器：使用预训练的 CNN（如 ResNet）提取图像视觉特征 $\mathbf{v} = f_{\text{CNN}}(I)$。
解码器：使用 LSTM 或 Transformer 基于视觉特征逐词生成描述序列：

\[ P(w_t | w_{1:t-1}, I) = \text{Decoder}(w_{t-1}, h_{t-1}, \mathbf{v}) \]

Show, Attend and Tell 进一步引入了注意力机制，让模型在生成每个单词时自动聚焦于图像的相关区域，实现了视觉特征与语言生成的动态对齐。

评价指标包括 BLEU（基于 n-gram 精确率）、METEOR、ROUGE-$L$ 以及 CIDEr（专门针对图像描述的共识评价指标）。

4. 语音识别

4.1 连接时序分类（CTC）

端到端语音识知的核心挑战在于：输入是连续语音信号（帧序列），输出是可变长度的字符或音素序列，二者之间不存在严格的对齐关系。

CTC（Connectionist Temporal Classification） 通过引入一个特殊的空白符号（blank） $\epsilon$，允许网络输出任意长度序列，再通过折叠与去重操作恢复最终标签序列。CTC 损失定义为所有合法输出路径的条件概率之和的对数：

\[ \mathcal{L}_{\text{CTC}} = -\ln P(\pi | \mathbf{X}) = -\ln \sum_{\pi \in \mathcal{B}^{-1}(L)} \prod_{t=1}^{T} y_{\pi_t}^t \]

其中 $\mathbf{X} = (x^1, \ldots, x^T)$ 为输入帧序列，$L$ 为目标标签序列，$\mathcal{B}$ 为折叠（去除 blank 与重复）操作，$\pi$ 为输出路径。

Deep Speech 2（百度）使用深度双向 LSTM 作为编码器，在超过 11,940 小时标注语音的数据集上训练，通过 CTC 损失实现了端到端的英语语音识别。

4.2 wav2vec 2.0 与自监督语音表示

wav2vec 2.0（Meta AI, 2020）代表了语音识别从全监督向自监督学习的重大转变。该模型由两部分组成：

特征编码器（Feature Encoder）：将原始音频波形 $x \in \mathbb{R}^{T \times 1}$ 通过多层卷积网络映射为紧凑表示 $\mathbf{z}_1, \ldots, \mathbf{z}_T$。
上下文网络（Context Network）：使用 Transformer 编码器将 $\mathbf{z}_t$ 序列聚合为上下文表示 $\mathbf{c}_t$，捕获长程依赖。

预训练阶段通过对比学习目标：给定潜在变量 $\mathbf{c}_t$ 与 $K=100$ 个负样本，识别对应的真实未来时刻 $t'$ 的量化表示 $\mathbf{q}_{t'}$：

\[ \mathcal{L} = -\log \frac{\exp(\text{sim}(\mathbf{c}_t, \mathbf{q}_{t'}) / \tau)}{\sum_{\tilde{\mathbf{q}} \in \mathbf{Q}_t} \exp(\text{sim}(\mathbf{c}_t, \tilde{\mathbf{q}}) / \tau)} \]

其中 $\tau$ 为温度参数，$\mathbf{Q}_t$ 包含正样本和负样本集合。微调阶段仅需少量标注数据即可达到优异性能——在 LibriSpeech 100h 评测集上，wav2vec 2.0 仅凭 10 分钟标注数据即实现了接近全监督水平的词错误率（WER）。

5. 自然语言处理

5.1 词嵌入与分布式表示

词嵌入（Word Embedding） 将离散的词汇符号映射为稠密的实值向量，使得语义相似的词在向量空间中彼此接近。Word2Vec 通过两种训练策略学习高质量词向量：

Skip-gram：给定中心词 $w_t$，预测上下文窗口内的词 $w_{t+j}$，目标函数为：

\[ \mathcal{L} = \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} | w_t) \]

其中 $P(w_{t+j}|w_t) = \frac{\exp(\mathbf{u}_{w_{t+j}}^{\top} \mathbf{v}_{w_t})}{\sum_{w \in V} \exp(\mathbf{u}_w^{\top} \mathbf{v}_{w_t})}$

CBOW（Continuous Bag-of-Words）：利用上下文词的向量和预测中心词。

GloVe 则结合了全局矩阵分解与局部上下文窗口的优势，通过最小化词共现矩阵的对数与词向量点积之间的差异来训练：

\[ \mathcal{L} = \sum_{i,j} f(X_{ij}) (w_i^{\top} \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2 \]

其中 $X_{ij}$ 为词 $i$ 在词 $j$ 上下文中出现的次数，$f$ 为加权函数。

5.2 BLEU 与机器翻译评价

BLEU（Bilingual Evaluation Understudy） 是机器翻译领域最广泛使用的自动评价指标，通过计算候选译文与参考译文之间 n-gram 的精确率来衡量翻译质量：

\[ \text{BLEU} = \text{BP} \cdot \exp \left( \sum_{n=1}^{N} \frac{1}{N} \log p_n \right) \]

其中 $p_n$ 为 n-gram 精确率，$\text{BP}$ 为简短惩罚因子（Brevity Penalty），防止模型通过生成过短译文获取虚高的精确率：

\[ \text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{1 - r/c} & \text{if } c \leq r \end{cases} \]

其中 $c$ 为候选译文长度，$r$ 为参考译文长度。

5.3 命名实体识别（NER）

命名实体识别旨在从文本中识别出人名、地名、机构名等特定类型的实体。BiLSTM-CRF 是该任务的基础深度学习架构：

BiLSTM 编码器：双向 LSTM 分别捕获每个词左右两侧的上下文信息，输出每个词的隐藏表示 $\mathbf{h}_i = [\overrightarrow{\mathbf{h}}_i; \overleftarrow{\mathbf{h}}_i]$。
CRF 层（Conditional Random Field）：建模标签序列的转移概率，避免独立预测每个标签导致的非法标签序列（如 B-PER 后面直接跟 I-LOC）。

NER 的评价指标主要为 F1 分数（实体级别的精确率与召回率的调和平均）。

5.4 序列到序列学习与注意力机制

序列到序列（Seq2seq） 模型使用编码器-解码器架构将变长输入序列映射为变长输出序列。编码器将输入序列编码为固定维度的上下文向量 $\mathbf{c}$，解码器以 $\mathbf{c}$ 为初始隐藏状态逐词生成输出。

注意力机制（Attention Mechanism） 解决了长序列依赖与信息瓶颈问题。Bahdanau 注意力（加性注意力）定义解码器在生成第 $t$ 个词时对输入第 $s$ 个词的注意力权重：

\[ \alpha_{ts} = \frac{\exp(e_{ts})}{\sum_{s'=1}^{S} \exp(e_{ts'})}, \quad e_{ts} = \mathbf{v}^{\top} \tanh(\mathbf{W}_1 \mathbf{h}_s^{\text{enc}} + \mathbf{W}_2 \mathbf{h}_t^{\text{dec}}) \]

上下文向量 $\mathbf{c}_t = \sum_s \alpha_{ts} \mathbf{h}_s^{\text{enc}}$ 作为解码器的新输入。

5.5 Transformer 与自注意力

Transformer（Vaswani et al., 2017）完全摒弃了循环结构，仅使用多头自注意力（Multi-Head Attention） 和位置前馈网络（Position-wise Feed-Forward Network） 构建序列到序列模型。

缩放点积注意力（Scaled Dot-Product Attention） 定义为：

\[ \text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \softmax\left( \frac{\mathbf{Q}\mathbf{K}^{\top}}{\sqrt{d_k}} \right) \mathbf{V} \]

其中 $\mathbf{Q}, \mathbf{K}, \mathbf{V}$ 分别为查询、键、值矩阵，$d_k$ 为键向量维度，除以 $\sqrt{d_k}$ 用于缩放点积结果，防止点积值过大导致 softmax 梯度消失。

多头注意力将注意力计算并行运行 $h$ 次，捕获不同子空间中的关联关系：

\[ \begin{aligned} \text{MultiHead}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) &= \text{Concat}(\text{head}_1, \ldots, \text{head}_h) \mathbf{W}^O \\ \text{head}_i &= \text{Attention}(\mathbf{Q}\mathbf{W}_i^Q, \mathbf{K}\mathbf{W}_i^K, \mathbf{V}\mathbf{W}_i^V) \end{aligned} \]

5.6 BERT：双向 Transformer 编码器

BERT（Bidirectional Encoder Representations from Transformers） 通过掩码语言建模（Masked Language Modeling, MLM） 和下一句预测（Next Sentence Prediction, NSP） 两大预训练任务，充分利用双向上下文信息：

MLM 损失：随机将输入中约 15% 的 token 替换为 [MASK]，训练模型预测被掩盖的原始 token：

\[ \mathcal{L}_{\text{MLM}} = -\mathbb{E}_{t \in M} \log P(w_t | w_{\setminus M}; \theta) \]

NSP 损失：判断句子对 $(A, B)$ 中 $B$ 是否为 $A$ 的真实下一句，学习句子级别的连贯性。

BERT 的成功证明了：大规模无标注文本上的预训练 + 下游任务的轻量级微调，可以大幅超越针对特定任务从零开始训练的效果，成为 NLP 深度学习的新范式。

6. 推荐系统

6.1 协同过滤与矩阵分解

协同过滤（Collaborative Filtering） 的核心假设是：相似用户会喜欢相似的物品。通过分析用户-物品交互矩阵 $\mathbf{R} \in \mathbb{R}^{U \times I}$（$U$ 为用户数，$I$ 为物品数），推荐系统可以预测用户尚未交互的物品的评分或偏好。

矩阵分解（Matrix Factorization） 将交互矩阵分解为两个低秩矩阵的乘积：

\[ \hat{\mathbf{R}} = \mathbf{U}\mathbf{V}^{\top}, \quad \mathbf{U} \in \mathbb{R}^{U \times d}, \mathbf{V} \in \mathbb{R}^{I \times d} \]

其中 $\mathbf{u}_i \in \mathbb{R}^d$ 为用户 $i$ 的隐向量，$\mathbf{v}_j \in \mathbb{R}^d$ 为物品 $j$ 的隐向量。用户 $i$ 对物品 $j$ 的预测评分：

\[ \hat{r}_{ij} = \mathbf{u}_i^{\top} \mathbf{v}_j + b_i + b_j + \mu \]

其中 $b_i, b_j$ 分别为用户和物品的偏置项，$\mu$ 为全局均值。训练通过最小化带正则化的均方误差：

\[ \mathcal{L} = \sum_{(i,j) \in \Omega} (r_{ij} - \hat{r}_{ij})^2 + \lambda(\|\mathbf{u}_i\|^2 + \|\mathbf{v}_j\|^2) \]

其中 $\Omega$ 为观测到的用户-物品交互集合。

SVD++ 进一步引入了隐式反馈信息，通过将用户的历史行为向量 $\mathbf{y}_j$ 纳入用户表示：

\[ \hat{r}_{ij} = \mathbf{u}_i^{\top} \mathbf{v}_j + b_i + b_j + \mu, \quad \mathbf{u}_i = \mathbf{p}_i + |\mathcal{N}(i)|^{-0.5} \sum_{j \in \mathcal{N}(i)} \mathbf{y}_j \]

其中 $\mathcal{N}(i)$ 为用户 $i$ 有过交互的物品集合。

6.2 Wide & Deep 联合学习框架

传统推荐系统面临记忆能力（Memorization） 与泛化能力（Generalization） 之间的权衡：

宽线性模型（如逻辑回归）擅长从历史数据中记忆特征共现规律，泛化能力有限。
深度神经网络通过低维嵌入可以发现从未在训练集中共现过的特征组合，具有强泛化能力。

Wide & Deep（Google, 2016）将宽线性模型与深度神经网络进行联合训练：

\[ P(Y=1 | \mathbf{x}) = \sigma(\mathbf{w}_{\text{wide}}^{\top}[\mathbf{x}, \boldsymbol{\phi}(\mathbf{x})] + \mathbf{w}_{\text{deep}}^{\top}a^{(l_f)} + b) \]

其中 $[\mathbf{x}, \boldsymbol{\phi}(\mathbf{x})]$ 为原始特征与交叉特征（通过特征工程得到的特征组合）的拼接，$a^{(l_f)}$ 为深层网络最后一层的激活输出。联合训练通过共享底层嵌入矩阵，使得宽模型与深模型协同优化，兼具记忆与泛化双重优势。

DeepFM 进一步用 FM（Factorization Machine） 替换 Wide 部分的线性回归，实现自动化的特征交叉学习，无需人工特征工程：

\[ \hat{y} = \sigma(y_{\text{FM}} + y_{\text{DNN}}) \]

7. 总结与展望

本章梳理了深度学习在五大核心应用领域的核心技术脉络。大规模深度学习通过数据并行、模型并行与流水线并行的协同设计，使数十亿乃至数千亿参数模型的训练成为可能；计算机视觉在目标检测、语义分割、风格迁移与图像描述等任务上不断刷新性能上限；语音识别从 CTC 到 wav2vec 2.0，展示了自监督学习在语音领域的巨大潜力；自然语言处理经历了从词嵌入到 Transformer 再到 BERT 的范式革命，使机器对语言的理解与生成能力产生质的飞跃；推荐系统通过协同过滤、矩阵分解与 Wide & Deep 等技术，在工业场景中实现了个性化服务的精准触达。

这些领域的技术进步并非孤立演进，而是相互促进：CV 领域的 Transformer 架构启发了 NLP 的革新，NLP 的预训练思想被引入语音与推荐系统，多模态学习正在弥合文字、图像、语音之间的语义鸿沟。可以预见，跨领域知识迁移、多模态统一建模、以及高效轻量的模型压缩将成为下一阶段深度学习应用发展的主旋律。

公式汇总表

编号	公式名称	公式定义
(12.1)	AllReduce 梯度同步	$\nabla \mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \nabla \mathcal{L}_i$
(12.2)	Faster R-CNN 总体损失	$L = L_{\text{rpn cls}} + L_{\text{rpn bbox}} + L_{\text{roi cls}} + L_{\text{roi bbox}}$
(12.3)	mAP	$\text{mAP} = \frac{1}{K} \sum_{k=1}^{K} \int_0^1 p_k(r) \, dr$
(12.4)	IoU	$\text{IoU} = \frac{
(12.5)	神经风格迁移总损失	$\mathcal{L}_{\text{total}} = \alpha \mathcal{L}_{\text{content}} + \beta \mathcal{L}_{\text{style}} + \gamma \mathcal{L}_{\text{TV}}$
(12.6)	CTC 损失	$\mathcal{L}_{\text{CTC}} = -\ln \sum_{\pi \in \mathcal{B}^{-1}(L)} \prod_{t=1}^{T} y_{\pi_t}^t$
(12.7)	Skip-gram 条件概率	$P(w_{t+j}\\|w_t) = \frac{\exp(\mathbf{u}_{w_{t+j}}^{\top}\mathbf{v}_{w_t})}{\sum_{w \in V}\exp(\mathbf{u}_w^{\top}\mathbf{v}_{w_t})}$
(12.8)	BLEU 分数	$\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^N \frac{1}{N}\log p_n\right)$
(12.9)	缩放点积注意力	$\text{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \softmax\left(\frac{\mathbf{Q}\mathbf{K}^{\top}}{\sqrt{d_k}}\right)\mathbf{V}$
(12.10)	BERT MLM 损失	$\mathcal{L}_{\text{MLM}} = -\mathbb{E}_{t \in M} \log P(w_t \\| w_{\setminus M}; \theta)$
(12.11)	矩阵分解预测	$\hat{r}_{ij} = \mathbf{u}_i^{\top}\mathbf{v}_j + b_i + b_j + \mu$
(12.12)	Wide & Deep 预测	$P(Y=1\\|\mathbf{x}) = \sigma(\mathbf{w}_{\text{wide}}^{\top}[\mathbf{x},\boldsymbol{\phi}(\mathbf{x})] + \mathbf{w}_{\text{deep}}^{\top}a^{(l_f)} + b)$

ZeRO Stage	分片内容	显存减少比例
ZeRO-1	优化器状态	\(N\) 倍
ZeRO-2	优化器状态 + 梯度	\(2N\) 倍
ZeRO-3	优化器状态 + 梯度 + 参数	\(N\) 倍（极致分片）

编号	公式名称	公式定义
(12.1)	AllReduce 梯度同步	\(\nabla \mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \nabla \mathcal{L}_i\)
(12.2)	Faster R-CNN 总体损失	\(L = L_{\text{rpn cls}} + L_{\text{rpn bbox}} + L_{\text{roi cls}} + L_{\text{roi bbox}}\)
(12.3)	mAP	\(\text{mAP} = \frac{1}{K} \sum_{k=1}^{K} \int_0^1 p_k(r) \, dr\)
(12.4)	IoU	$\text{IoU} = \frac{
(12.5)	神经风格迁移总损失	\(\mathcal{L}_{\text{total}} = \alpha \mathcal{L}_{\text{content}} + \beta \mathcal{L}_{\text{style}} + \gamma \mathcal{L}_{\text{TV}}\)
(12.6)	CTC 损失	\(\mathcal{L}_{\text{CTC}} = -\ln \sum_{\pi \in \mathcal{B}^{-1}(L)} \prod_{t=1}^{T} y_{\pi_t}^t\)
(12.7)	Skip-gram 条件概率	\(P(w_{t+j}\\|w_t) = \frac{\exp(\mathbf{u}_{w_{t+j}}^{\top}\mathbf{v}_{w_t})}{\sum_{w \in V}\exp(\mathbf{u}_w^{\top}\mathbf{v}_{w_t})}\)
(12.8)	BLEU 分数	\(\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^N \frac{1}{N}\log p_n\right)\)
(12.9)	缩放点积注意力	\(\text{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \softmax\left(\frac{\mathbf{Q}\mathbf{K}^{\top}}{\sqrt{d_k}}\right)\mathbf{V}\)
(12.10)	BERT MLM 损失	\(\mathcal{L}_{\text{MLM}} = -\mathbb{E}_{t \in M} \log P(w_t \\| w_{\setminus M}; \theta)\)
(12.11)	矩阵分解预测	\(\hat{r}_{ij} = \mathbf{u}_i^{\top}\mathbf{v}_j + b_i + b_j + \mu\)
(12.12)	Wide & Deep 预测	\(P(Y=1\\|\mathbf{x}) = \sigma(\mathbf{w}_{\text{wide}}^{\top}[\mathbf{x},\boldsymbol{\phi}(\mathbf{x})] + \mathbf{w}_{\text{deep}}^{\top}a^{(l_f)} + b)\)