第一章 引言
书籍元数据
- 书名:Deep Learning
- 作者:Ian Goodfellow, Yoshua Bengio, Aaron Courville
- 出版社:MIT Press
- 出版年份:2016
- ISBN:978-0262035613
- 核心主题:深度学习的基础理论、方法与应用
- 目标读者:计算机科学、机器学习、人工智能领域的研究者和学生
- 前置知识:线性代数、概率论、微积分、编程基础
- 相关书籍:《Machine Learning》(Tom Mitchell)、《Pattern Recognition and Machine Learning》(Christopher Bishop)
第一节 章节概述
本章是《深度学习》一书的开篇之作,承担着为全书奠定概念基础、梳理发展脉络、明确学习路径的重要任务。作者首先从宏观视角回答了"什么是深度学习"这一根本问题,将其置于人工智能(AI)、机器学习(ML)和表示学习(Representation Learning)的宏观体系中加以审视。深度学习并非凭空产生的技术,而是人工智能发展到一定阶段的必然产物,其核心特征在于通过多层非线性变换构建数据的层次化表示(hierarchical representation),从而实现从原始数据中自动学习有用特征的目的。
本章的第二项核心任务是梳理深度学习的历史演进。作者将这一历史划分为三个主要阶段:1940年代至1960年代的控制论(Cybernetics)阶段,1980年代的连接主义(Connectionism)阶段,以及2000年代至今的深度学习(Deep Learning)阶段。这三个阶段并非截然分开,而是呈现出"技术兴衰—蛰伏—复兴"的螺旋式发展轨迹。值得注意的是,每个阶段都涌现出若干关键理论和技术原型,它们在数十年后被重新发现并焕发新生,例如反向传播算法(Backpropagation)最初于1960年代被提出,却在1980年代通过连接主义运动才得到广泛关注。
第三项任务是介绍本书的整体结构。全书分为三大板块:第一部分为"应用数学与机器学习基础"(Applied Math and Machine Learning Basics),涵盖线性代数、概率论、信息论、数值计算以及传统的机器学习核心概念,为读者打下坚实的理论基础;第二部分为"现代实用深度网络"(Modern Practical Deep Networks),详细介绍深度学习在实践中的关键技术,包括深度网络的训练、优化、正则化方法,以及卷积神经网络(CNN)、循环神经网络(RNN)等主流架构;第三部分为"深度学习研究"(Deep Learning Research),聚焦于当前的研究前沿,包括自编码器、表示学习、蒙特卡罗方法、配分函数近似以及深度生成模型等高级主题。
本章最后阐述了推动深度学习革命的三项关键因素——大数据(Big Data)、算力提升(Compute)和算法进步(Algorithmic Advances),并总结了深度学习的核心设计原则:层次化组合原则(Hierarchical Composition Principle),即通过叠加多个简单的非线性变换层,逐步构建对数据的越来越抽象、越来越有用的表示。
第二节 关键问题与研究动机
1.2.1 人工智能、机器学习与表示学习的关系辨析
理解深度学习在人工智能版图中的位置,需要厘清四个核心概念之间的层次关系:人工智能(AI)、机器学习(ML)、表示学习(Representation Learning)和深度学习(Deep Learning)。
人工智能是最广泛的概念,指使计算机系统具有人类智能特征(包括推理、规划、自然语言理解、视觉感知等)的研究领域。传统的人工智能主要依赖专家系统(Expert Systems),即由人类专家手动编写大量规则来编码知识。这种方法虽然可解释性强,但面临知识获取瓶颈——专家知识难以系统化、规则之间可能冲突、无法处理不确定性等根本性困难。
机器学习作为人工智能的一个分支,试图让计算机系统从数据中自动学习模式和规律,而无需人类显式编程规则。其基本框架可概括为:给定一个任务\(T\)、性能度量\(P\)和经验\(E\),如果一个计算机程序能在经验\(E\)的基础上,在任务\(T\)上的性能度量\(P\)有所提升,则称该程序从经验\(E\)中学习了(Tom Mitchell, 1997)。机器学习避免了专家系统的知识工程瓶颈,在图像识别、语音识别、自然语言处理等领域取得了显著成效。
然而,传统机器学习的一个核心挑战在于特征工程(Feature Engineering)——如何从原始数据中提取对任务有用的表示(Representation)。例如,在识别猫的图片任务中,原始像素值对于分类器来说是无意义的,需要设计边缘检测器、纹理描述子、形状模板等高级特征。这一过程需要领域专家的大量人力投入,且特征往往不能跨任务迁移。
表示学习试图解决这一难题,其核心思想是让机器自动学习数据的表示,而不是依赖人类设计的特征。表示学习的典型方法是自编码器(Autoencoder):将输入数据通过编码器映射到一个低维表示空间,再通过解码器重建原始输入。通过最小化重建误差,模型被迫学习数据中最本质的结构特征。然而,当数据的语义层级较深时,浅层的表示学习方法往往力不从心。
深度学习在此基础上迈出了关键一步:不仅学习表示,而且学习层次化的表示。其核心洞察是:许多现实世界的数据具有天然的层次结构——图像由像素组成边缘,边缘组成纹理,纹理组成部件,部件组成对象;文本由字符组成词,词组成短语,短语组成句子,句子组成段落。深度学习通过堆叠多个非线性变换层,逐步将数据从原始像素或字符这样的底层表示,抽象为高层语义表示(如"猫"、"狗"这样的类别标签)。这种层次化结构使得模型能够捕获数据中高度复杂的结构化信息。
1.2.2 深度学习的三次浪潮:控制论、连接主义与深度学习
第一波:控制论(1940s—1960s)
深度学习的历史可以追溯到早期的神经科学研究。1943年,McCulloch和Pitts提出了M-P神经元模型,这是世界上第一个人工神经元模型。该模型受生物神经元结构的启发,将神经元的输入、输出和激活机制抽象为一个简单的阈值逻辑单元:
其中,\(x_i\)为输入信号,\(w_i\)为连接权重,\(\theta\)为阈值,\(y\)为输出。M-P模型虽然简单,但首次证明了神经元可以作为逻辑计算单元,为后续研究奠定了基础。
随后,1949年Hebb提出了著名的Hebb学习规则("一起放电的神经元会一起连接"),奠定了神经网络学习算法的理论基础。1958年,Rosenblatt发明了感知机(Perceptron),这是第一个能够学习的线性分类器。感知机的学习算法是现代神经网络训练算法的直接祖先。
然而,1969年Minsky和Papert在《感知机》一书中严格证明了单层感知机的局限性:它无法解决XOR(异或)等线性不可分问题。这一致命打击导致神经网络研究在1970年代陷入低谷。
第二波:连接主义(1980s)
1986年,Rumelhart、Hinton和Williams发表了里程碑式的论文《Learning representations by back-propagating errors》,重新点燃了人们对神经网络的热情。这篇论文系统阐述了反向传播算法(Backpropagation),使得训练多层神经网络成为可能。
反向传播算法的核心思想是利用链式法则(Chain Rule)将输出层的误差逐层反向传播到输入层,从而计算每个权重对最终误差的贡献:
其中,\(L\)为损失函数,\(w_{ij}^{(l)}\)为第\(l\)层的权重,\(\delta_i^{(l)}\)为第\(l\)层第\(i\)个神经元的误差项,\(a_j^{(l-1)}\)为前一层第\(j\)个神经元的激活值。
连接主义阶段还涌现出若干重要概念:分布式表示(Distributed Representation)——每个概念由多个神经元的激活模式表示,而非由单个神经元独占;长短期记忆网络(LSTM)的雏形(1997年Hochreiter和Schmidhuber提出)——虽然当时未被广泛关注;卷积神经网络的早期原型(1989年LeCun等人提出用于手写数字识别的LeNet);以及自编码器(Autoencoder)和Hopfield网络等能量基模型。
然而,1990年代后期,连接主义再度衰落。原因包括:计算资源有限,无法训练大规模网络;数据量不足,容易过拟合;与此同时,支持向量机(SVM)、核方法(Kernel Methods)、提升方法(Boosting)等基于核技巧或集成学习的浅层模型在理论和实践上都取得了突破性进展,分走了学术界的主要注意力。
第三波:深度学习(2000s—)
深度学习的真正崛起始于2006年,Hinton等人提出了深度置信网(Deep Belief Networks)和贪婪逐层预训练(Greedy Layer-wise Pretraining)技术,首次证明了深层神经网络可以被有效训练。这一突破的关键在于:通过无监督预训练(Unsupervised Pretraining)逐层初始化网络参数,可以避免深层网络在随机初始化后的梯度消失问题。
2012年是一个重要的转折点。Krizhevsky、Sutskever和Hinton设计的AlexNet在ImageNet图像分类挑战赛中将错误率从26%大幅降低到15%,震惊了计算机视觉社区。这一成就主要归功于三个因素:(1) 大规模标注数据集ImageNet提供了充足的训练数据;(2) GPU并行计算使得训练深层卷积网络成为可能;(3) Dropout、ReLU激活函数等新技术改善了网络的泛化能力和收敛速度。
此后,深度学习迅速扩展到自然语言处理(NLP)、语音识别、推荐系统、游戏、自动驾驶等几乎所有AI相关领域,成为当代人工智能的主流范式。
第三节 主要公式与推导
1.3.1 机器学习的基本框架
机器学习问题的数学表述可概括为:给定训练数据集 \(\mathcal{D} = \{(\mathbf{x}^{(i)}, \mathbf{y}^{(i)})\}_{i=1}^{N}\) ,其中 \(\mathbf{x}^{(i)} \in \mathbb{R}^{D}\) 为输入特征,\(\mathbf{y}^{(i)}\) 为对应的标签(可以是类别标签或连续值),学习的目标是找到一个模型 \(f_\theta: \mathbb{R}^D \rightarrow \mathcal{Y}\),使得期望损失 \(\mathbb{E}_{(\mathbf{x}, \mathbf{y})\sim p_{\mathrm{data}}}[\mathcal{L}(\mathbf{y}, f_\theta(\mathbf{x}))]\) 最小化,其中 \(\theta\) 为模型参数,\(\mathcal{L}\) 为损失函数。
常见的损失函数包括:
| 损失函数 | 公式 | 适用场景 |
|---|---|---|
| 均方误差(MSE) | \(\mathcal{L}_{\text{MSE}} = \frac{1}{N}\sum_{i=1}^{N}\|\mathbf{y}^{(i)} - f_\theta(\mathbf{x}^{(i)})\|^2\) | 回归任务 |
| 交叉熵(Cross-Entropy) | \(\mathcal{L}_{\text{CE}} = -\sum_{i=1}^{N}\sum_{c=1}^{C}y_c^{(i)}\log f_\theta(\mathbf{x}^{(i)})_c\) | 多分类任务 |
| 对数似然损失 | $\mathcal{L}{\text{LL}} = -\log p\theta(\mathbf{y} | \mathbf{x})$ |
1.3.2 神经网络的通用近似定理
神经网络之所以能够处理复杂的非线性问题,根本原因在于通用近似定理(Universal Approximation Theorem)(Hornik et al., 1989)。该定理指出:对于任意连续函数 \(g: [0,1]^n \rightarrow \mathbb{R}\),如果网络隐藏层宽度足够大(即隐藏层神经元数目足够多),则存在一个单隐藏层的前馈神经网络 \(f(\mathbf{x}) = \sum_{j=1}^{N} \alpha_j \sigma(\mathbf{w}_j^T \mathbf{x} + b_j)\),使得 \(|f(\mathbf{x}) - g(\mathbf{x})| < \epsilon\) 对所有 \(\mathbf{x} \in [0,1]^n\) 成立,其中 \(\sigma\) 为非线性激活函数(如Sigmoid、Tanh等)。
然而,通用近似定理仅保证解的存在性,并不保证能够通过学习算法找到这个解。实践中,浅层网络需要指数级多的神经元才能近似某些函数,而深层网络可以用少得多的参数达到同等近似精度。这正是深度学习强调"深"的核心动机之一。
1.3.3 反向传播算法的矩阵形式
考虑一个 \(L\) 层的前馈神经网络,记 \(\mathbf{a}^{(0)} = \mathbf{x}\) 为输入,\(\mathbf{a}^{(l)} = f^{(l)}(\mathbf{z}^{(l)})\) 为第 \(l\) 层的激活值,其中 \(\mathbf{z}^{(l)} = \mathbf{W}^{(l)}\mathbf{a}^{(l-1)} + \mathbf{b}^{(l)}\) 为第 \(l\) 层的净输入。给定损失函数 \(\mathcal{L}\),反向传播算法通过链式法则计算梯度:
前向传播: $$ \mathbf{z}^{(l)} = \mathbf{W}^{(l)}\mathbf{a}^{(l-1)} + \mathbf{b}^{(l)}, \quad \mathbf{a}^{(l)} = f^{(l)}(\mathbf{z}^{(l)}) $$
反向传播: $$ \boldsymbol{\delta}^{(L)} = \frac{\partial \mathcal{L}}{\partial \mathbf{z}^{(L)}} \quad \text{(输出层误差)} $$ $$ \boldsymbol{\delta}^{(l)} = (\mathbf{W}^{(l+1)})^T \boldsymbol{\delta}^{(l+1)} \odot f^{(l)'}(\mathbf{z}^{(l)}) \quad \text{(隐藏层误差递归公式)} $$ $$ \frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(l)}} = \boldsymbol{\delta}^{(l)} (\mathbf{a}^{(l-1)})^T, \quad \frac{\partial \mathcal{L}}{\partial \mathbf{b}^{(l)}} = \boldsymbol{\delta}^{(l)} $$
其中 \(\odot\) 表示逐元素乘法(Hadamard积)。
1.3.4 梯度下降与学习率
参数更新采用梯度下降法: $$ \mathbf{W}^{(l)} \leftarrow \mathbf{W}^{(l)} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(l)}} $$ 其中 \(\eta > 0\) 为学习率(Learning Rate),控制每一步更新的步长。学习率是深度学习最重要的超参数之一:过大导致振荡甚至发散,过小则收敛缓慢。
第四节 关键算法与建模方法
1.4.1 层次化表示学习(Hierarchical Representation Learning)
深度学习的核心设计原则是层次化组合(Hierarchical Composition)。这一原则基于对现实世界数据结构的观察:自然图像由简单的局部模式(边缘、角点)组合成复杂的全局结构(物体、场景);自然语言由字符组合成词、由词组合成短语、由短语组合成句子。
在数学上,假设我们有一个\(K\)层的深度网络,每一层的操作可以形式化为: $$ \mathbf{h}^{(k)} = g^{(k)}(\mathbf{h}^{(k-1)}; \boldsymbol{\theta}^{(k)}) $$ 其中 \(\mathbf{h}^{(k)}\) 是第 \(k\) 层的表示,\(g^{(k)}\) 是非线性变换函数,\(\boldsymbol{\theta}^{(k)}\) 是该层的参数。整体网络可以看作这些变换的复合: $$ \mathbf{h}^{(K)} = (g^{(K)} \circ g^{(K-1)} \circ \cdots \circ g^{(1)})(\mathbf{x}) $$
层次化组合的威力在于指数级的表示能力。对于一个具有 \(n\) 个输入单元的网络,假设每层添加 \(k\) 个新的计算单元,则 \(L\) 层网络可以表示的函数复杂度随 \(L\) 指数增长。这意味着,相比于增加单层的宽度,深层网络能以更少的参数表达更复杂的函数。
1.4.2 深度学习革命的三驾马车
作者指出,深度学习在2010年代的爆发式增长并非偶然,而是三项关键因素共同驱动的结果:
(1)大数据(Big Data)
深度神经网络的高容量意味着它需要大量数据才能避免过合并充分发挥其潜力。进入互联网时代后,数据的获取、存储和标注成本大幅下降。典型的大规模数据集包括:
| 数据集 | 年份 | 规模 | 应用领域 |
|---|---|---|---|
| MNIST | 1998 | 70,000张手写数字图片 | 数字识别 |
| CIFAR-10/100 | 2009 | 60,000张32×32彩色图片 | 图像分类 |
| ImageNet | 2009 | 14,197,122张图片,2万+类别 | 大规模视觉识别 |
| YouTube-8M | 2016 | 8百万个视频 | 视频理解 |
大数据不仅提供了更多的训练样本,还使得模型能够学习到更丰富、更泛化的特征表示。
(2)算力提升(Compute)
深度神经网络的训练涉及大量的矩阵运算(矩阵-向量乘法、矩阵-矩阵乘法),这些运算具有天然的并行性。图形处理器(GPU)凭借其大规模并行架构(数千个计算核心),将深度网络的训练速度提升了数十倍甚至上百倍。
以NVIDIA Tesla V100为例,其峰值浮点运算能力达到125 TFLOPS(FP64),而高端CPU仅为1 TFLOPS量级。GPU的并行计算能力使得: - 训练周期从数周缩短到数天甚至数小时 - 以前不可能训练的大规模网络成为现实 - 研究人员可以快速迭代实验想法
(3)算法进步(Algorithmic Advances)
即使有数据和算力,如果没有算法创新,深度学习仍然难以发挥其潜力。过去二十年涌现的若干关键技术包括:
- ReLU激活函数(2010):相比Sigmoid/Tanh,ReLU (\(f(x) = \max(0, x)\)) 缓解了梯度消失问题,加速了收敛
- Dropout正则化(2012):通过随机丢弃神经元防止过拟合
- Batch Normalization(2015):通过规范化层的输入分布,加速训练并提供正则化效果
- Adam优化器(2014):自适应学习率方法,结合了Momentum和RMSProp的优点
- 残差连接(ResNet)(2015):通过跨层 shortcut 连接解决了深层网络的梯度消失问题
第五节 主要结论
本章的核心结论可以归纳为以下几点:
第一,深度学习是人工智能发展到一定阶段的必然产物。 传统AI的专家系统瓶颈、机器学习的特征工程瓶颈,共同推动了表示学习和深度学习的兴起。深度学习通过自动学习层次化表示,从根本上解决了"如何从原始数据中提取有用特征"这一核心问题。
第二,深度学习经历了三次发展浪潮,每次浪潮都建立在前期理论突破的基础之上。 控制论阶段的M-P神经元和感知机、连接主义阶段的反向传播算法和分布式表示,都为现代深度学习奠定了理论基础。技术发展的曲折性说明,重大突破往往需要数十年甚至更长时间的积累。
第三,"深"是手段,不是目的。 深度学习的核心价值在于层次化表示带来的表示能力指数级提升,而不仅仅是"网络层数多"。研究表明,对于某些函数,深层网络需要的参数数量远少于浅层网络。
第四,深度学习的成功是大数据、算力和算法进步三者协同作用的结果。 缺一不可:没有大数据,模型会过拟合;没有算力,训练周期无法承受;没有算法创新(如ReLU、BatchNorm),深层网络的训练本身就是难题。
第五,本书采用"理论-实践-研究"三阶段结构,系统覆盖深度学习从入门到前沿的完整知识体系。 这种结构设计合理地照顾了不同层次读者的需求——初学者可以从第一部分的数学基础和机器学习核心概念入手,实践者可以直接参考第二部分的现代实用技术,研究者则可以在第三部分找到当前的研究前沿和热点问题。
第六节 挑战与开放问题
尽管深度学习取得了巨大成功,本章也指出了若干仍待解决的挑战和开放问题:
1.6.1 训练稳定性和收敛性问题
深层神经网络的训练仍然充满挑战。虽然ReLU、BatchNorm等技术改善了收敛性,但以下问题仍然突出:
- 超参数敏感:学习率、批大小(batch size)、网络深度、宽度等超参数对最终性能影响显著,且没有统一的最优选择原则
- 局部最优和鞍点:随机梯度下降(SGD)容易陷入局部最优或鞍点,如何避免或逃离是未完全解决的问题
- 梯度消失/爆炸:深层网络的梯度在反向传播过程中可能指数级衰减或增长,尽管残差连接和归一化技术有所缓解
1.6.2 可解释性和理论理解
深度网络常被称为"黑箱"(Black Box),其决策过程难以解释、难以调试:
- 表示的可解释性:中间层的表示(representation)通常难以用人类可理解的语言描述
- 对抗样本(Adversarial Examples):对输入添加微小扰动就能让模型产生完全错误的输出,说明模型学到的表示空间不够鲁棒
- 理论理解滞后于实践:为什么深层网络泛化能力如此之好?神经网络过参数化(over-parameterization)情况下的泛化理论仍是活跃的研究领域
1.6.3 泛化能力的边界
深度学习在分布内(in-distribution)数据上表现优异,但在分布外(out-of-distribution)数据上的泛化能力仍然有限:
- 分布漂移(Distribution Shift):训练数据和测试数据分布差异较大时,性能会急剧下降
- 小样本学习(Few-shot Learning):人类可以从极少的样本中学习新概念,而深度网络通常需要大量标注数据
- 因果推理(Causal Inference):深度网络擅长捕捉相关性(correlation),但对因果关系(causation)的建模能力仍然薄弱
1.6.4 未来研究方向
本章为后续章节埋下了伏笔,指出了若干重要研究方向:
- 更有效的训练方法(如更稳定的优化器、更好的学习率调度)
- 无监督和自监督学习(减少对标注数据的依赖)
- 迁移学习和多任务学习(提高模型的通用性和适应性)
- 深度强化学习(将深度学习与强化学习结合)
- 概率模型和生成模型(深度生成模型如VAE、GAN等)
- 神经架构搜索(Neural Architecture Search, NAS)
第七节 个人反思与批判性分析
1.7.1 对"深度"概念的哲学思考
本章最引人深思的观点之一是:深度学习的"深"不仅仅是技术概念,更反映了对智能本质的某种哲学假设——即智能是对世界的层次化建模能力。人类大脑处理信息的方式确实是层次化的:从视网膜的原始光信号,到初级视觉皮层的边缘和纹理,到高级视觉皮层的物体和场景表征。深度学习将这一思想形式化并工程化,某种程度上是"自然智能启发的计算智能"这一研究范式的成功典范。
然而,我们也应该警惕"层次结构=深度"的过度简化。自然语言处理中的Transformer架构(2017年提出,在本书出版之后)证明了:注意力机制(Attention Mechanism)可以在不增加网络深度的前提下大幅提升性能,甚至在某些任务上超越深度CNN/LSTM。这提示我们,"深"可能不是提升表示能力的唯一途径,宽度(Width)和高效的信息传递机制(Information Routing)同样重要。
1.7.2 对历史叙述的反思
本章对深度学习历史的叙述以连接主义为主线,带有一定的"胜利者叙事"色彩。然而,如果我们跳出这一视角,会发现:
- 符号主义(Symbolism)传统从未真正消亡,其在知识图谱、逻辑推理、规划等领域仍有重要价值
- 概率图模型(Probabilistic Graphical Models)和贝叶斯方法在处理不确定性和小数据场景下具有独特优势
- 神经符号混合系统(Neuro-symbolic Systems)正成为新的研究热点,试图结合神经网络的学习能力和符号系统的推理能力
本书的核心立场是深度学习,但这并不意味着深度学习是AI的唯一正确道路。读者应保持开放的批判性思维,在不同方法之间取长补短。
1.7.3 对本书结构设计的评价
本书将内容分为"基础-实践-研究"三大板块,这一设计层次分明、逻辑清晰,非常值得肯定。然而,对于完全没有机器学习基础的读者,第一部分(应用数学与机器学习基础)的陡峭程度可能超出预期。线性代数、概率论、信息论、数值计算等内容如果展开讲可以各成一书,但本书的篇幅相对有限。建议读者在阅读第一部分之前,先补充线性代数(如Gilbert Strang的MIT课程)和概率论的基础知识。
1.7.4 对"深度学习革命"叙事的批判性审视
本章将2012年AlexNet的成功描述为深度学习革命的转折点,这一叙述在学术界几乎已成共识。但我们也应该注意到:
- AlexNet的成功在很大程度上得益于GPU的使用和大数据集的可用性,而非算法本身的颠覆性创新
- ImageNet比赛本身存在一定的测试集过拟合风险——研究者不断调整模型结构以在公开测试集上取得更好成绩
- 深度学习在计算机视觉领域的成功并不能直接推广到所有AI问题(如推理、规划、小样本学习等)
因此,保持对"深度学习至上论"的警惕是必要的。深度学习是强大的工具,但不是万能的终极解。
公式汇总
| # | 名称 | 公式 | 物理/数学意义 | 类型 |
|---|---|---|---|---|
| (1.1) | M-P神经元模型 | \(y = \mathbf{1}_{\{\sum_i w_i x_i \geq \theta\}}\) | 阈值逻辑单元的基本定义 | (T) |
| (1.2) | Hebb学习规则 | \(\Delta w_{ij} = \eta a_i a_j\) | "一起放电的神经元会一起连接" | (T) |
| (1.3) | 反向传播——梯度计算 | \(\frac{\partial L}{\partial W^{(l)}} = \boldsymbol{\delta}^{(l)} (\mathbf{a}^{(l-1)})^T\) | 链式法则在神经网络中的应用 | (T) |
| (1.4) | 隐藏层误差递归 | \(\boldsymbol{\delta}^{(l)} = (\mathbf{W}^{(l+1)})^T \boldsymbol{\delta}^{(l+1)} \odot f'(\mathbf{z}^{(l)})\) | 误差从后向前传播的递推关系 | (T) |
| (1.5) | 梯度下降更新 | \(\mathbf{W} \leftarrow \mathbf{W} - \eta \frac{\partial L}{\partial \mathbf{W}}\) | 参数优化的基本迭代公式 | (T) |
| (1.6) | ReLU激活函数 | \(f(x) = \max(0, x)\) | 深度学习中最常用的非线性激活 | (T) |
| (1.7) | 均方误差损失 | \(L_{\text{MSE}} = \frac{1}{N}\sum_i \|\mathbf{y}^{(i)} - f_\theta(\mathbf{x}^{(i)})\|^2\) | 回归任务的标准损失函数 | (T) |
| (1.8) | 交叉熵损失 | \(L_{\text{CE}} = -\sum_i \sum_c y_c^{(i)} \log f_\theta(\mathbf{x}^{(i)})_c\) | 多分类任务的标准损失函数 | (T) |
注:(T)=理论推导,(E)=经验公式
延伸阅读
- McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5(4), 115–133.
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536.
- Hornik, K., Stinchcombe, M., & White, H. (1989). Multilayer feedforward networks are universal approximators. Neural Networks, 2(5), 359–366.
- Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105.
- LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444.
本章阅读完毕。下一章将介绍线性代数基础,这是理解深度学习中矩阵运算、向量空间操作和优化理论的必要前提。