第 2 章概率论速成（A Crash Course in Basic Probability Theory）

作者

Lawrence C. Evans，UC Berkeley 数学系教授。本章是为高年级本科生和低年级研究生快速复习概率论测度论基础而设立的"工具箱"，共九节，覆盖到 Ch 6 用到的全部测度论与鞅论预备知识。

内容概述

本章的目标是让读者在 ~30 页的篇幅内掌握后续 SDE 理论所必需的概率论工具：从 σ-代数上的概率测度出发，定义随机变量、期望、方差、分布函数与密度函数，引入独立性与 Borel–Cantelli 引理，介绍特征函数工具，并证明大数定律与中心极限定理，最后定义条件期望与鞅。所有这些都为 Ch 3（构造 Wiener 过程）、Ch 4（Itô 积分）、Ch 5（SDE 解的存在唯一性）服务。

第 A 节以 Bertrand 悖论开场，说明"随机"这一概念必须落实到具体概率空间 \((\Omega, \mathcal{U}, P)\) 上，不同的 \((\Omega, \mathcal{U}, P)\) 选择对应不同的"均匀"概念；Buffon 投针问题给出了显式构造概率空间的范例。第 B 节定义随机变量为 \(\mathcal{U}\)-可测映射，引入简单函数逼近、期望 \(\mathbb{E}(X)=\int_\Omega X dP\) 与方差 \(\mathbb{V}(X)=\mathbb{E}(|X-\mathbb{E}(X)|^2)\)，并给出 Chebyshev 不等式。第 C 节定义分布函数 \(F_X(x) = P(X \le x)\)、密度函数 \(f_X\)，给出 \(n\) 维 Gaussian \(\mathcal{N}(m, C)\) 的显式形式，并指出 \(P(X \in B) = \int_B f(x)dx\)。第 D 节定义事件 / σ-代数 / 随机变量三个层次的"独立"，并证明独立随机变量乘积的期望可分解为各期望之积、方差可加。第 E 节给出 Borel–Cantelli 引理（\(\sum P(A_n) < \infty \Rightarrow P(A_n \text{ i.o.}) = 0\)）并用作"依概率收敛" \(\Rightarrow\) "a.s. 收敛子列" 的桥梁。第 F 节引入特征函数 \(\phi_X(\lambda) = \mathbb{E}(e^{i\lambda \cdot X})\)，证明独立随机变量和的特征函数是各特征函数的乘积，并指出特征函数唯一决定分布。第 G 节证明大数定律（独立同分布样本均值 a.s. 收敛到公共期望）和中心极限定理（标准化和趋向 \(\mathcal{N}(0,1)\)），二者合起来构成本章最核心的"大样本"工具。第 H 节定义条件期望并给出两种等价刻画：σ-代数上的"对偶测度投影"与 \(L^2\) Hilbert 空间中的最小二乘投影；列出五条基本性质（含 tower rule）。第 I 节定义（连续时间）鞅——\(\mathbb{E}(X(t) | \mathcal{U}(s)) = X(s)\) 对 \(t \ge s\)——并以 Wiener 过程为例子，给出 Doob 子鞅极大不等式与 \(L^p\) 上界不等式。

阅读本章需要熟悉测度论基础：集合的可数运算、外测度与 Carathéodory 扩张、Lebesgue 积分的基本性质。若读者不熟悉这些，应同时阅读 Brémaud [Br]、Chung [C]、Lamperti [L1] 等参考书。值得注意的是，作者在前言里就承认本章"省略了大多数测度论细节"，所以严格性弱于 Oksendal 的对应章节。

核心方程与概念

关键定义（2.1）——σ-代数与概率空间

\(\sigma\)-代数 \(\mathcal{U}\) 是 \(\Omega\) 的子集族，满足 (i) \(\emptyset, \Omega \in \mathcal{U}\)；(ii) \(A \in \mathcal{U} \Rightarrow A^c \in \mathcal{U}\)；(iii) \(\{A_k\}_{k=1}^\infty \subset \mathcal{U} \Rightarrow \bigcup_k A_k \in \mathcal{U}\) 且 \(\bigcap_k A_k \in \mathcal{U}\)。概率测度 \(P:\mathcal{U}\to[0,1]\) 满足 \(P(\emptyset)=0\)、\(P(\Omega)=1\)，并对可列个互不相交事件 \(A_k\) 有可列可加性 \(P(\bigcup_k A_k) = \sum_k P(A_k)\)。三元组 \((\Omega, \mathcal{U}, P)\) 称为概率空间。

例 (Bertrand 悖论) 说明：对于"在圆内随机取一条弦"这一模糊问题，\(\Omega\) 可以是弦中点的集合（导致 \(1/4\)）、可以是弦方向的集合（导致 \(1/2\)）、也可以是弦端点之一在圆上 + 角度的集合（导致 \(1/3\)）。三个答案都"自洽"，但对应不同的概率空间。建模的第一步必须显式给出 \((\Omega, \mathcal{U}, P)\)。

关键定义（2.2）——随机变量与 σ-代数生成

映射 \(X: \Omega \to \mathbb{R}^n\) 称为 \(n\) 维随机变量，若对每个 Borel 集 \(B \in \mathcal{B}\)（\(\mathbb{R}^n\) 上最小 σ-代数）都有 \(X^{-1}(B) \in \mathcal{U}\)。这等价于说 \(X\) 是 \(\mathcal{U}\)-可测的。

由 \(X\) 生成的 σ-代数 \(\mathcal{U}(X) = \{X^{-1}(B) \mid B \in \mathcal{B}\}\) 是使得 \(X\) 可测的最小 σ-代数。Evans 在本章反复强调一个直观解释：\(\mathcal{U}(X)\) "包含关于 \(X\) 的所有相关信息"——若 \(Y\) 是 \(X\) 的函数 \(Y = \Phi(X)\)，则 \(Y\) 是 \(\mathcal{U}(X)\)-可测的；反之若 \(Y\) 是 \(\mathcal{U}(X)\)-可测，则 \(Y\) 必是 \(X\) 的某个函数（Doob 定理的简化版）。这一可测性 ↔ 函数性的等价是后续条件期望章节的基础。

关键定义（2.3）——期望、方差、Chebyshev 不等式

对简单函数 \(X = \sum_{i=1}^k a_i \chi_{A_i}\)，\(\int X dP = \sum_i a_i P(A_i)\)；对一般非负 \(X\) 用上确界逼近；对一般 \(X\) 写 \(X = X^+ - X^-\)。期望定义为

\[\mathbb{E}(X) = \int_\Omega X dP.\]

方差为 \(\mathbb{V}(X) = \mathbb{E}(|X - \mathbb{E}(X)|^2) = \mathbb{E}(|X|^2) - |\mathbb{E}(X)|^2\)。Chebyshev 不等式为

\[P(|X| \ge \lambda) \le \frac{1}{\lambda^p} \mathbb{E}(|X|^p), \quad \lambda > 0, \ 1 \le p < \infty.\]

关键定义（2.4）——分布函数、密度、Gaussian 分布

分布函数 \(F_X(x) = P(X \le x)\)。若存在非负可积 \(f\) 使 \(F(x) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(y) dy\)，则 \(f\) 称为 \(X\) 的密度，且 \(P(X \in B) = \int_B f(x) dx\)。一维 Gaussian \(\mathcal{N}(m, \sigma^2)\) 的密度为 \(f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-(x-m)^2 / 2\sigma^2}\)；\(n\) 维 Gaussian \(\mathcal{N}(m, C)\) 的密度为 \(f(x) = (2\pi)^{-n/2} (\det C)^{-1/2} \exp\bigl(-\tfrac12 (x-m)\cdot C^{-1}(x-m)\bigr)\)，其中 \(C\) 是正定协方差矩阵。

关键定理（2.5）——独立性的三个层次

事件 \(A, B\) 独立 \(\iff\) \(P(A \cap B) = P(A) P(B)\)。σ-代数 \(\mathcal{U}_i\) 独立 \(\iff\) 任意选事件 \(A_{k_i} \in \mathcal{U}_{k_i}\) 都满足 \(P(\bigcap A_{k_i}) = \prod P(A_{k_i})\)。随机变量 \(X_i\) 独立 \(\iff\) \(P(X_1 \in B_1, \ldots, X_k \in B_k) = \prod P(X_i \in B_i)\) 对所有 Borel 集成立，等价于 \(\sigma\)-代数 \(\mathcal{U}(X_i)\) 独立。

关键的乘积期望公式：对独立 \(X_1, \ldots, X_m\)（实值）有 \(\mathbb{E}(X_1 \cdots X_m) = \mathbb{E}(X_1) \cdots \mathbb{E}(X_m)\)，特别地 \(\mathbb{V}(X_1 + \cdots + X_m) = \mathbb{V}(X_1) + \cdots + \mathbb{V}(X_m)\)。

关键引理（2.6）——Borel–Cantelli

对事件序列 \(\{A_n\}\)，若 \(\sum_n P(A_n) < \infty\)，则 \(P(A_n \text{ i.o.}) = 0\)。这个引理是后续"依概率收敛蕴含 a.s. 收敛子列"的桥梁。证明：对每个固定的 \(n\)，\(P(\bigcup_{m \ge n} A_m) \le \sum_{m \ge n} P(A_m)\)；令 \(n \to \infty\)，右端和式尾项趋于 0（因为整个级数收敛），故 \(P(A_n \text{ i.o.}) = 0\)。

关键定义（2.7）——特征函数

随机变量 \(X\) 的特征函数是 \(\phi_X(\lambda) = \mathbb{E}(e^{i\lambda \cdot X})\)。基本性质：(i) 独立随机变量和的特征函数是各特征函数的乘积 \(\phi_{X_1 + \cdots + X_m}(\lambda) = \phi_{X_1}(\lambda) \cdots \phi_{X_m}(\lambda)\)；(ii) \(\phi_X^{(k)}(0) = i^k \mathbb{E}(X^k)\)；(iii) 特征函数唯一决定分布（反演公式）。Gaussian \(\mathcal{N}(m, \sigma^2)\) 的特征函数是 \(\phi_X(\lambda) = e^{im\lambda - \lambda^2 \sigma^2 / 2}\)。

关键定理（2.8）——大数定律（SLLN）

设 \(X_1, \ldots, X_n, \ldots\) 是独立同分布、可积的实值随机变量，\(m = \mathbb{E}(X_i)\)，则

\[P\!\left(\lim_{n \to \infty} \frac{X_1 + \cdots + X_n}{n} = m\right) = 1.\]

证明技巧：先对 \(\mathbb{E}(X_i^4) < \infty\) 的情形用 \(\mathbb{E}((\sum X_i)^4) \le n^2 C\) + Chebyshev + Borel–Cantelli 三件套推出 \(\limsup \frac{1}{n}|\sum X_i| \le 1/k\) 在概率 1 集外成立；取 \(k \to \infty\) 即得。

关键定理（2.9）——中心极限定理（CLT）

设 \(X_1, \ldots, X_n\) 独立同分布，\(\mathbb{E}(X_i) = m\)，\(\mathbb{V}(X_i) = \sigma^2 > 0\)，\(S_n = X_1 + \cdots + X_n\)，则对任意 \(- \infty < a < b < +\infty\)，

\[\lim_{n \to \infty} P\!\left(a \le \frac{S_n - nm}{\sqrt{n} \sigma} \le b\right) = \frac{1}{\sqrt{2\pi}} \int_a^b e^{-x^2/2} dx.\]

证明思路：用特征函数。\(\phi_{S_n/\sqrt{n}}(\lambda) = \bigl[\phi_{X_1}(\lambda/\sqrt{n})\bigr]^n\)，Taylor 展开 \(\phi_{X_1}(\mu) = 1 - \mu^2/2 + o(\mu^2)\)（因为 \(\phi'(0) = im\)、\(\phi''(0) = -m^2\) 而 \(E(X_1-m)^2 = \sigma^2\)），代入 \(\mu = \lambda/\sqrt{n}\) 得 \(\phi_{S_n/\sqrt{n}}(\lambda) \to e^{-\lambda^2/2}\)，即 \(\mathcal{N}(0,1)\) 的特征函数；再由特征函数的连续性得分布收敛。

关键定义（2.10）——条件期望的两种等价刻画

设 \(\mathcal{V} \subseteq \mathcal{U}\) 是子 σ-代数，\(X\) 可积。\(\mathbb{E}(X | \mathcal{V})\) 是任意满足以下两个条件的随机变量：(i) \(\mathbb{E}(X | \mathcal{V})\) 是 \(\mathcal{V}\)-可测的；(ii) \(\int_A X dP = \int_A \mathbb{E}(X | \mathcal{V}) dP\) 对所有 \(A \in \mathcal{V}\) 成立。

第二种刻画（在 \(X \in L^2\) 时）：\(\mathbb{E}(X | \mathcal{V}) = \mathrm{proj}_{\mathcal{V}}(X)\)，其中 \(\mathcal{V} = L^2(\Omega, \mathcal{V})\) 是 \(L^2(\Omega)\) 的闭子空间，\(\mathrm{proj}_{\mathcal{V}}\) 是 Hilbert 空间正交投影。这一刻画揭示条件期望是"基于 \(\mathcal{V}\) 所含信息对 \(X\) 的最佳 \(L^2\) 估计"。

条件期望五条性质：(i) 若 \(X\) 是 \(\mathcal{V}\)-可测，则 \(\mathbb{E}(X | \mathcal{V}) = X\) a.s.；(ii) 线性 \(\mathbb{E}(aX + bY | \mathcal{V}) = a\mathbb{E}(X | \mathcal{V}) + b\mathbb{E}(Y | \mathcal{V})\)；(iii) "提取因子"：若 \(X\) 是 \(\mathcal{V}\)-可测且 \(XY\) 可积，则 \(\mathbb{E}(XY | \mathcal{V}) = X \mathbb{E}(Y | \mathcal{V})\) a.s.；(iv) 若 \(X\) 独立于 \(\mathcal{V}\)，则 \(\mathbb{E}(X | \mathcal{V}) = \mathbb{E}(X)\) a.s.；(v) Tower rule：\(\mathcal{W} \subseteq \mathcal{V} \Rightarrow \mathbb{E}(X | \mathcal{W}) = \mathbb{E}(\mathbb{E}(X | \mathcal{V}) | \mathcal{W}) = \mathbb{E}(\mathbb{E}(X | \mathcal{W}) | \mathcal{V})\) a.s.。还有 (vi) 单调性：\(X \le Y\) a.s. \(\Rightarrow\) \(\mathbb{E}(X | \mathcal{V}) \le \mathbb{E}(Y | \mathcal{V})\) a.s.。

关键定义（2.11）——鞅

随机过程 \(X(\cdot)\)（满足 \(\mathbb{E}(|X(t)|) < \infty\)）称为鞅，若对所有 \(t \ge s \ge 0\)，

\[X(s) = \mathbb{E}(X(t) | \mathcal{U}(s)) \quad \text{a.s.},\]

其中 \(\mathcal{U}(t) = \sigma(X(s) \mid 0 \le s \le t)\) 是 \(t\) 时刻的历史 σ-代数。若 \(X(s) \le \mathbb{E}(X(t) | \mathcal{U}(s))\)，则 \(X(\cdot)\) 称为子鞅。直观解释：在鞅中，"基于历史的未来期望"等于"当前值"，即过程是"公平博弈"。Wiener 过程 \(W(\cdot)\) 是最经典的例子（Ch 3 证明）—— \(\mathbb{E}(W(t) | W(s)) = W(s)\)。

Doob 子鞅极大不等式：(i) 对连续时间子鞅 \(X(\cdot)\) 有 \(P(\max_{0 \le s \le t} X(s) \ge \lambda) \le \frac{1}{\lambda} \mathbb{E}(X(t)^+)\)；(ii) 对鞅 \(X(\cdot)\) 与 \(p > 1\) 有 \(\mathbb{E}(\max_{0 \le s \le t} |X(s)|^p) \le (p/(p-1))^p \mathbb{E}(|X(t)|^p)\)。这两条不等式是控制轨道"瞬时极大值"的核心工具。

关键结论

σ-代数即"信息"：\(\mathcal{U}(X)\) 包含关于 \(X\) 的全部信息；\(Y\) 是 \(X\) 的函数 \(\iff\) \(Y\) 是 \(\mathcal{U}(X)\)-可测的。这一观点把测度论与统计推断联系起来，是后续条件期望的根基。
独立性的乘积期望公式：独立随机变量 \(X_1, \ldots, X_m\) 满足 \(\mathbb{E}(X_1 \cdots X_m) = \mathbb{E}(X_1) \cdots \mathbb{E}(X_m)\)，特别地方差可加。
Borel–Cantelli 给出 a.s. 收敛：若 \(\sum P(A_n) < \infty\) 则 \(P(A_n \text{ i.o.}) = 0\)；配合 Chebyshev 不等式可证"依概率收敛 \(\Rightarrow\) a.s. 收敛子列"。
特征函数唯一决定分布：\(\phi_X = \phi_Y \Rightarrow F_X = F_Y\)；独立随机变量和的特征函数是乘积。
SLLN：独立同分布可积随机变量的样本均值以概率 1 收敛到公共期望。
CLT（中心极限定理）：标准化和 \((S_n - nm)/\sqrt{n}\sigma\) 趋向 \(\mathcal{N}(0,1)\) 分布，是统计推断的"大样本"基础。
条件期望 = \(L^2\) 投影：\(\mathbb{E}(X | \mathcal{V})\) 是 \(L^2(\Omega, \mathcal{V})\) 中对 \(X\) 的最佳最小二乘逼近；五条性质（线性、提取因子、独立、tower rule、单调）使其成为一个代数结构良好的运算。
鞅 = 公平博弈：\(\mathbb{E}(X(t) | \mathcal{U}(s)) = X(s)\) 精确刻画"未来期望等于当前值"；Wiener 过程是范本。
Doob 不等式：子鞅的最大值受 \(\mathbb{E}(X(t)^+)\) 控制；\(L^p\) 鞅最大值受 \(\mathbb{E}(|X(t)|^p)\) 的 \((p/(p-1))^p\) 倍控制。
Laplace–DeMoivre：作为 CLT 的 Bernoulli 特殊情形 \((P(X=1) = p, P(X=0) = q)\)，标准化二项分布趋向 \(\mathcal{N}(0,1)\)。

挑战和开放性问题

条件期望的构造性证明：作者把"\(\mathbb{E}(X | \mathcal{V})\) 存在且 a.s. 唯一"留作不证明，需要用到 Radon–Nikodym 定理与 Hilbert 空间投影的严格论证。
大数定律的弱假设版本：本章证明 SLLN 用了 \(\mathbb{E}(X_i^4) < \infty\) 这个强假设；标准教材的 SLLN 只需要 \(\mathbb{E}(|X_i|) < \infty\)，但证明要用到 Kolmogorov 最大不等式等更复杂的工具。
CLT 的非 i.i.d. 推广：Lindeberg 条件、Lévy 连续性定理——这些把"独立"和"同分布"两条都放松，是金融数学（随机波动率）和数理统计的基础。
鞅的"逆时"问题：本章给的是 \(t \ge s\) 时 \(\mathbb{E}(X(t) | \mathcal{U}(s)) = X(s)\)，但鞅的"停时定理"（optional stopping）和"反向鞅"在金融数学中同样重要，本章未触及。
Borel–Cantelli 的"必要性"：作者只证了 \(\sum P(A_n) < \infty \Rightarrow P(A_n \text{ i.o.}) = 0\)；反向（Kochen–Stone）需要独立性或准独立性条件，本章未深入。
Doob–Meyer 分解：任何子鞅都可以分解为鞅 + 可料增过程；这是金融数学中"鞅表示定理"的源头，本章未给出。

个人反思与批判性分析

本章是典型的"工具箱"章节：覆盖广、深度有限、严谨度按目标读者做了妥协。我对几处值得讨论的地方给出个人评论。

长处： 1. Bertrand 悖论作为开篇：用三个"对"的答案说明"概率空间必须显式给出"，这一教学法非常有效；它把抽象的 \((\Omega, \mathcal{U}, P)\) 三角组变成"建模的第一步"，对本科生的概率论直觉建立帮助极大。 2. σ-代数即"信息"的反复强调：这是 Evans 写作风格中非常一致的特征——从本章 H 节条件期望到 Ch 4 随机积分的"被积函数不可预知（nonanticipating / adapted）"条件，再到 Ch 5 SDE 适应解的定义，整本书都用同一种语言把抽象的数学对象映射到"信息论"概念。这种语言的一致性对教学极有好处。 3. SLLN/CLT 的特征函数证明：用特征函数的 Taylor 展开 \(\phi(\mu) = 1 - \mu^2/2 + o(\mu^2)\) 把 CLT 化为代数问题，避免了 Fourier 反演的繁琐技术细节。 4. 条件期望的两种刻画并列：第一种（σ-代数上的对偶条件）适合一般 \(\sigma\)-有限测度，第二种（\(L^2\) 投影）适合 \(L^2\) 空间且几何直观。两种刻画合在一起，读者既能看到抽象代数性质，也能看到几何意义。

可以改进之处： 1. SLLN 证明强假设：\(\mathbb{E}(X_i^4) < \infty\) 的假设比标准 SLLN 强得多（后者只需 \(\mathbb{E}(|X_i|) < \infty\)）。作者用四阶矩是把 Chebyshev + Borel–Cantelli 的"3 行证明"做了简化，但代价是失去了一般性。建议至少加一句"\(\mathbb{E}(X_i^4) < \infty\) 可放宽到 \(\mathbb{E}(|X_i|) < \infty\)，证明见 Chung [C]"。 2. 条件期望存在性：作者完全略去了 Radon–Nikodym 定理的依赖。这对 Oksendal 的对应章节是一处"教学上的偷懒"。如果本科生升研究生读 SDE 课程，会发现很多证明都跳过了 \(\mathbb{E}(X | \mathcal{V})\) 的存在性，唯一性也是 a.s. 意义下的——这在第一次接触时容易引起混淆。 3. Doob 不等式的"无界情形"：作者只对 \(\mathbb{E}(|X(t)|) < \infty\) 给出 \(L^p\) 鞅不等式（\(p > 1\)），没有给出 \(p = 1\) 的 Doob 子鞅不等式 \(P(\max_{0 \le s \le t} X(s) \ge \lambda) \le \lambda^{-1} \mathbb{E}(X(t)^+)\)。Ch 6 实际应用时经常用到这一 \(p=1\) 形式。 4. 鞅的连续化问题：作者在 §I 末尾用"选取更细分划"的方式从离散鞅不等式过渡到连续鞅不等式（"Outline of Proof"），但他承认这个"passage to limits"需要更多严格论证。这是一个值得本科生思考的"形式化 vs. 严密化"的教学点。

与本书其他章节的连接：本章是 Ch 3 (Brown 运动) 和 Ch 4 (Itô 积分) 的预备。独立性与 Gaussian 性在 Ch 3 用于构造 Brown 运动（Brown 运动定义要求 \(W(t) - W(s) \sim \mathcal{N}(0, t-s)\) 且独立增量）；条件期望在 Ch 4 用于定义"可预测（predictable）过程"\(\mathcal{F}_t\)-适应可测性；鞅则在 Ch 3 用于证明 Brown 运动是鞅，在 Ch 5 用于证明 Itô 积分是鞅（这是 Ch 4 §B 末尾的备注）。

与现有教材的对比：相比 Oksendal《随机微分方程》第 2 章，Evans 本章更简略（Oksendal 在特征函数部分引入了 Radon–Nikodym 与 Daniell 积分，Evans 都跳过了）。但 Evans 写得更"研究生入门友好"——他用了很多具体例子（Bertrand 悖论、Buffon 投针、Rademacher 函数）来让抽象的测度论概念落地。读者如果想要更严密的概率论基础，Oksendal 或 Durrett 是必要的补充；如果想要直观理解，Evans 是最佳起点。

重要参考文献

[X1] P. Brémaud. An Introduction to Probabilistic Modeling. Springer, 1988. — Evans 在本章开头明确推荐的基础教材；其测度论处理对本科生较友好。
[X2] K. L. Chung. Elementary Probability Theory with Stochastic Processes. Springer, 1975. — 经典初等概率论教材，§A σ-代数、§D 独立性、§F 特征函数等概念的标准来源。
[X3] J. Lamperti. Probability. W. A. Benjamin. — 与 Chung 齐名的另一本经典概率论教材；附录 B 提到的离散鞅不等式证明可在此找到。
[X4] L. Breiman. Probability. Addison-Wesley, 1968. — 经典但偏严密的概率论教材；本章多个定理（独立性的逆定理、CLT 连续性引理）证明参见此书。
[X5] B. K. Øksendal. Stochastic Differential Equations: An Introduction with Applications. 6th ed., Springer, 2003. — Ch 2 给出更严密的 σ-代数与条件期望处理；与本书 Ch 4 (Itô 积分) 衔接紧密。
[X6] D. W. Stroock. Probability Theory: An Analytic View. Cambridge U. Press, 1993. — 分析学风格的高等概率论；§A 概率空间的"完全化"和 §H 条件期望的 Radon–Nikodym 论证参见此书。
[X7] D. Mermin. "Stirling's formula!" American J. Physics 52 (1984), 362–365. — 本章未直接引用，但与 §F 特征函数矩展开 \(\phi^{(k)}(0) = i^k \mathbb{E}(X^k)\) 在教学法上有联系。
[X8] D. Gillespie. "The mathematics of Brownian motion and Johnson noise." American J. Physics 64 (1996), 225–240. — 本章未直接引用，但 Ch 3 (Brown 运动) 物理动机时此篇是标准参考；其中对"白噪声"作为 \(\xi = \dot W\) 的形式化讨论与 Ch 1 §B 形成呼应。

第 2 章 概率论速成（A Crash Course in Basic Probability Theory）

作者