第 11 章随机控制的应用（Application to Stochastic Control）

作者

Bernt Øksendal（奥斯陆大学）。本章是 Ch 1 Problem 6 的解——Merton 最优投资组合问题。HJB 方程（Hamilton-Jacobi-Bellman）是控制理论的"中心方程"。

随机控制理论是 Itô 理论对"决策科学"的最终应用。Beneš 1971 给出 Itô 控制的早期结果；Fleming-Rishel 1975 给出 PDE 方法（HJB）；Davis 1977 给出半鞅方法；Yong-Zhou 1999 给出完整理论。本章用 Øksendal 的 PDE-HJB 路径——价值函数 $\Phi$ 满足 HJB 方程 $\sup_v \{f^v + L^v \Phi\} = 0$。

Ch 1 Problem 6（Merton 1969）通过效用函数 $U$ 最大化期望终端财富——HJB 方程 + 边界条件给出最优投资策略 $u^* = $ 常数比例（对 $\log U$）或显式函数（对 $U(x) = x^\gamma/\gamma$）。

内容概述

本章正式"回答" Ch 1 提出的 Problem 6：Merton 最优投资组合问题。

本章中心任务：给定受控 SDE $dX = b(X, u) dt + \sigma(X, u) dB$，求 $u^* = \arg\sup_u J^u$。

主要内容： 1. 控制问题定义（Ch 11.1）：状态 $X$ 受 $u$ 控制，性能 $J^u = E[\int_0^{\tau_G} f^u dt + g(Y_{\tau_G})]$，求 $\Phi = \sup_u J^u$。 2. Markov 控制（Def 11.1.4, Rem 11.1-4）：$u(t, X_t)$（closed-loop / feedback）——决策仅依赖当前状态。 3. HJB 方程（I）必要性（Thm 11.2.1）：$\Phi$ 满足 $\sup_v \{f^v(y) + L^v \Phi(y)\} = 0$ in $G$, $\Phi = g$ on $\partial G$。 4. HJB 方程（II）充分性 / verification（Thm 11.2.2）：若 $\varphi$ 满足 $f^v + L^v \varphi \le 0$ + $\varphi = g$ on $\partial G$ + 存在 $u^0$ 使 $f^{u^0} + L^{u^0} \varphi = 0$，则 $\varphi = \Phi$ + $u^0$ 最优。 5. Markov 控制的"足够性"（Thm 11.2.3）：在 HJB 条件下，$\Phi^M = \Phi^a$（Markov 控制已足够优）。 6. Merton 投资问题（Ex 11.2.1）：$U(x) = \log x$ → $u^* = (\mu - \rho)/(\sigma^2)$（与财富无关的常数比例）。 7. 一般效用函数（Ex 11.2.2）：$U(x) = x^\gamma/\gamma$ → $u^*$ 与财富 $x$ 有关。 8. 带消费 + 终值条件（Ex 11.2.3）：$J^u = E[\int_0^T e^{-\rho t} c_t^{1-\gamma}/(1-\gamma) dt + e^{-\rho T} U(V_T)]$。 9. Linear-quadratic 控制（Ex 11.2.4）：状态线性 + 性能二次 → HJB 化为 Riccati 方程，Separation Principle：滤波 + 确定性控制分开。 10. 一般 HJB（Ch 11.3）：时变 + 非 Markov 控制 + 部分观测。 11. 例子：LQR 问题、随机 LQ 调节器。

在全书中位置：应用章。Ch 11 是 Ch 1 Problem 6 的解。综合 Ch 7（生成元 $A$）+ Ch 8（Feynman-Kac）+ Ch 10（最优停时 = 控制的极端情形 $U = \{0, 1\}$）的工具。

前置知识：Ch 5（SDE 存在唯一性）+ Ch 7（生成元 + Dynkin）+ Ch 8（Feynman-Kac）+ Ch 10（最优停时作为 $U = \{0, 1\}$ 的特例）。HJB 方程是 PDE 偏导（$f + L \Phi = 0$） + 控制优化（$\sup_v$ 或 $\inf_v$）的结合。

核心方程与概念

本章是"应用章"——综合 Ch 5-10 工具解控制问题。下面列出最重要的 11 个对象。

11.1 控制问题定义（Ch 11.1）

受控 SDE： $$dX^u_t = b(t, X^u_t, u_t)\,dt + \sigma(t, X^u_t, u_t)\,dB_t, \quad X^u_s = x.$$

性能函数： $$J^u(s, x) = E^{(s,x)}\!\left[\int_s^{\tilde T} f^u(r, X^u_r)\,dr + g(\tilde T, X^u_{\tilde T}) \mathbf 1_{\tilde T < \infty}\right],$$

$\tilde T$ = 首次离开 $G$ 的时间。

价值函数： $$\Phi(s, x) = \sup_{u \in \mathcal A} J^u(s, x),$$

$\mathcal A$ = admissible control 类（$\mathcal F^{(m)}_t$-适应 + 落在 $U$ 中）。

例子（Ch 1 Problem 6）：$X^u$ 是财富过程 $V$，$u$ 是风险资产投资比例，$f \equiv 0$（无中间收益），$g(x) = U(x)$（终值效用），$G = [0, T) \times \mathbb R_+$。

11.2 Markov 控制（Def 11.1.4, Rem 11.1-4）

Markov 控制：$u(t, \omega) = u^0(t, X^u_t(\omega))$ 对某个 Borel 函数 $u^0: \mathbb R \times \mathbb R^n \to U$。

关键：Markov 控制下 $X^u$ 仍是齐次扩散（Itô 扩散 + 控制）。
几何意义：决策仅依赖当前状态，不依赖历史路径（"无记忆的最优策略"）。
Thm 11.2.3：在 HJB 条件下，$\Phi^M = \Phi^a$——Markov 控制已是最优，无需考虑路径依赖控制。

11.3 HJB 方程（I）—— 必要性（Thm 11.2.1）

价值函数 $\Phi$ 满足： $$\boxed{\sup_{v \in U} \{f^v(y) + L^v \Phi(y)\} = 0 \quad \forall y \in G, \qquad \Phi = g \text{ on } \partial G.}$$

其中 $L^v$ 是 $Y^v$ 的生成元：$L^v = \partial_s + \sum b_i^v \partial_i + \tfrac12 \sum a_{ij}^v \partial_{ij}$。

证明关键（Thm 11.2.1）：
任意 $u$ 都有 $J^u(y) \le \Phi(y)$，强 Markov 性质给 $J^u(y) = E[\int_0^\alpha f^u dt] + E[J^u(Y_\alpha)]$。
取 $\alpha = \tau_W$（首次离开小区域 $W$）→ 代入 $\Phi(y) \ge J^u(y)$，用 Dynkin 公式 + 令 $W \to \{y\}$ 得 $f^v + L^v \Phi \le 0$。
对 $u^*$ 达到等号 → 必要性 (11.2.5)。
几何意义：在状态 $y$，最优控制 $u^*(y)$ 是"使 $f^v + L^v \Phi$ 最大的 $v$"——贪婪决策（look only at current state）。

11.4 HJB 方程（II）—— 充分性（Thm 11.2.2, Verification）

若 $\varphi \in C^2(G) \cap C(\bar G)$ 满足： - (11.2.9)：$f^v(y) + L^v \varphi(y) \le 0$ for all $v \in U$, $y \in G$ - (11.2.10)：$\lim_{t \to \tau_G} \varphi(Y_t) = g(Y_{\tau_G}) \mathbf 1_{\tau_G < \infty}$ a.s. - (11.2.11)：$\{\varphi(Y_\tau)\}_{\tau \le \tau_G}$ 一致可积

则 $\varphi \ge J^u$ 对所有 Markov 控制 $u$。若进一步存在 $u^0$ 使 $f^{u^0} + L^{u^0} \varphi = 0$，则 $u^0$ 最优，$\varphi = \Phi$。

意义：HJB 不仅是必要条件，也是充分条件——给定 $\varphi$ 满足 HJB 不等式 + 边界条件，可直接构造最优控制 $u^0$。这是 HJB 在工程中的"实用价值"。

11.5 Markov 控制的足够性（Thm 11.2.3）

\[\Phi^M(y) = \sup_{\text{Markov } u} J^u(y) = \sup_{\mathcal F^{(m)}_t\text{-adapted } u} J^u(y) = \Phi^a(y).\]

条件：存在 Markov 最优控制 $u^0$ + $\partial G$ 对 $Y^{u^0}$ 正则 + $\Phi^M \in C^2$ 满足 (11.2.16)。
意义：Markov 控制是"足够好"——不必考虑路径依赖的复杂控制。这是 Merton 问题求解的关键。

11.6 Merton 投资问题（Ex 11.2.1）

财富过程：$dV_t = [\rho V_t + u_t (\mu - \rho) V_t] dt + u_t \sigma V_t dB_t$，$u_t$ 是风险资产投资比例。

目标：$\max_u E[\log V_T]$。

解：$u^* = (\mu - \rho)/\sigma^2$（与 $V_t$ 无关的常数比例）。
HJB 推导：$L^u V = (\rho + u(\mu - \rho)) V \partial_V + \tfrac12 u^2 \sigma^2 V^2 \partial_{VV}$，$f \equiv 0$。HJB 化为 $\sup_u (\rho + u(\mu - \rho)) V \Phi' + \tfrac12 u^2 \sigma^2 V^2 \Phi'' = 0$。对 $u$ 优化 → $u^* = -(\mu - \rho) \Phi' / (V \sigma^2 \Phi'')$。
验证 $\Phi = \log V$：$\Phi' = 1/V$, $\Phi'' = -1/V^2$ → $u^* = (\mu - \rho)/\sigma^2$。
意义：Merton 比率——经典投资组合理论的核心结果（Markowitz-Tobin 框架的"随机版"）。

11.7 一般效用函数（Ex 11.2.2）

$U(x) = x^\gamma / \gamma$（$0 < \gamma < 1$, CRRA）： $$u^* = \frac{\mu - \rho}{(1 - \gamma) \sigma^2}, \quad V^*_T = e^{rT} \cdot \left(\text{geometric BM-driven by } \sigma^2 \gamma \text{ etc.}\right).$$

比较：$U = \log x$（$\gamma = 0$）给出 $u^* = (\mu - \rho)/\sigma^2$，与 $U = x^\gamma / \gamma$（$\gamma \to 0$）一致。
意义：CRRA 效用族是 Merton 问题的"完整解"。

11.8 带消费 + 终值（Ex 11.2.3）

$J^u = E[\int_0^T e^{-\rho t} c_t^{1-\gamma}/(1-\gamma) dt + e^{-\rho T} U(V_T)]$。

控制变量：$c_t$（消费率）+ $u_t$（投资比例）。
HJB 方程：$\sup_{c, u} \{c^{1-\gamma}/(1-\gamma) + (\rho + u(\mu - \rho)) V \Phi' + \tfrac12 u^2 \sigma^2 V^2 \Phi'' - \rho \Phi\} = 0$。
解：$c^* = \rho^{1/\gamma} \cdot V$（$c$ 与 $V$ 成正比），$u^*$ 与 Ex 11.2.1 类似。
意义：消费 + 投资是 Merton 1969 完整模型——生命周期假说的标准公式。

11.9 Linear-Quadratic (LQ) 控制（Ex 11.2.4）

系统：$dX = (A X + B u) dt + C dB$（线性 + 控制加法）。性能：$J^u = E[\int_0^T (X^T Q X + u^T R u) dt + X_T^T S X_T]$。

HJB 解：$\Phi(x, t) = x^T K(t) x + k_0(t)$，$K$ 满足矩阵 Riccati 方程 $\dot K = -K A - A^T K - Q + K B R^{-1} B^T K$。
最优控制：$u^* = -R^{-1} B^T K X$（线性反馈）。
Separation Principle：当控制器只观测 $R_t$（带噪）时，可分两步：先用 Kalman 滤波估计 $X$（Ch 6），再用 $u^* = -R^{-1} B^T K \hat X$——滤波 + 确定性控制独立进行。
意义：LQ 控制是 20 世纪控制理论的"金标准"——阿波罗登月、GPS 卫星姿态控制、汽车 ABS 系统都用 LQ 反馈。它把复杂的随机控制简化为"Riccati 方程求解"——一个确定性的 ODE 问题。在工程控制论中，LQ 是"基准方法"，任何新控制算法都用 LQ 作为对照。

11.10 抛物 HJB 方程

时变情形：$L = \partial_t + \sum b_i^v \partial_i + \tfrac12 \sum a_{ij}^v \partial_{ij}$——是抛物算子。
边界条件：在 $G$ 的侧面 + 终端面（$t = T$）上给定。
数值方法：有限差分 / 有限元（求解偏微分方程）——比直接蒙特卡洛快但需光滑性。

11.11 最小化问题（Rem 11.2.3 末）

\[\Psi(y) = \inf_u J^u(y) = -\sup_u (-J^u(y)),\]

等价于最大化 $-J$ + 用 $-f, -g$ 替换。HJB 方程变为 $\inf_v \{f^v + L^v \Psi\} = 0$。

应用：成本最小化问题（不只是收益最大化）。

关键结论

价值函数 $\Phi$ 满足 HJB 方程（Thm 11.2.1）—— 这是控制理论的核心方程。
HJB 是充分条件（Thm 11.2.2）——给定 $\varphi$ 满足 HJB 不等式 + 边界条件，直接构造 $u^0$ 使 $\varphi = \Phi$。
Markov 控制已足够（Thm 11.2.3）——在 HJB 条件下，$\Phi^M = \Phi^a$。
Merton 最优投资策略：$U = \log x$ → $u^* = (\mu - \rho)/\sigma^2$（常数比例）；$U = x^\gamma/\gamma$ → $u^* = (\mu - \rho)/[(1-\gamma) \sigma^2]$。
LQ 控制的分离原理：滤波 + 确定性控制可分开。
HJB 方程的 PDE 视角：$\sup_v \{f^v + L^v \Phi\} = 0$ 是偏微分方程（带 $\sup$ 算子）。PDE 数值解 是求解控制问题的标准方法。
Verification 步骤是 HJB 在工程中的"实用流程**——给定 HJB 候选解 $\varphi$（猜测形式），验证是否满足 (11.2.9) + (11.2.13)。

挑战和开放性问题

HJB 方程的解的唯一性：当 $U$ 非凸、$b^v, \sigma^v$ 非线性时，HJB 解不唯一——需要 viscosity solution 理论（Crandall-Lions 1983）。
非 Markov 控制的"优势"：在某些奇异模型（如路径依赖 volatility）下，Markov 控制不是最优——需要 Wong-Zakai 极限、rough paths、McKean-Vlasov 控制。
高维 HJB 的维数灾难：$\mathbb R^d$ 中 HJB 的离散化是 $O(N^d)$——$d = 10$ 已经不可行。降维方法（Adaptive Sparse Grids, Tensor Train）是当前研究热点。
部分观测 + 控制的耦合：当状态只能带噪观测时，HJB 化为随机偏微分方程（SPDE）——Zakai 方程 + HJB 耦合。
平均场控制（Lasry-Lions 2007, Carmona-Fouque 2014）：当 $X$ 的动力学依赖其他"agent"的最优策略时，HJB 方程含 $\partial_x \Phi$ 的"平均"项——Nash 均衡的 PDE 形式。
约束控制：当 $u \in U$ 强约束（如 $u \in [0, 1]$ 投资比例）时，HJB 的 $\sup$ 在 $U$ 边界取极值——bang-bang 控制。
有限状态控制：当 $U$ 是有限集时，HJB 化为"比较"多个 $L^v \Phi$ 的 max——但仍是 PDE。

个人反思与批判性分析

本章是 Itô 理论对"最优决策"的胜利——把"何时投 / 投多少 / 投什么"这种"商业直觉"问题严格化为 HJB 方程 + 验证。

HJB 方程的"魔力"在于把"动态优化"问题转化为"静态 PDE"问题：原本需要对所有路径积分的 $\sup_u$ 期望，化为单个偏微分方程的解 + 边界值匹配。这是 20 世纪应用数学的重大成就（Bellman 1957 动态规划 + Fleming 1969 PDE）。

Merton 比率的"普适性"：$u^* = (\mu - \rho)/\sigma^2$ 与 $V_t$ 无关——财富再平衡的比例是常数。这与"风险资产期望收益高于无风险利率时全投风险资产"直觉一致，但量化地给出"超投"——最优比例是 $(\mu - \rho)/\sigma^2$（不是 $100\%$）。

消费 + 投资（Ex 11.2.3）的 Merton 1969 完整模型：消费率 $c^* = \rho^{1/\gamma} V$（与财富成正比）是"持久收入假说"的随机版（Friedman 1957）。生命周期 = 财富积累 + 消费的标准公式。

LQ 控制的 Separation Principle（Ex 11.2.4）是工程控制的"金标准"——把随机控制简化为 Kalman 滤波 + 确定性 LQR 控制。这是 Apollo 导航、月球着陆的实际算法。

HJB 方程的局限： - 维数灾难：高维 PDE 难求 - 解的不唯一：非凸问题 - 非 Markov 控制的优势：某些奇异模型

对应用研究的意义： - 金融工程：Merton 模型 + 效用最大化 + 资产定价 - 能源工程：石油开采 + 库存控制 - 机器人：路径规划 + 反馈控制 - 生物：觅食策略 + 迁移决策

与 Yong-Zhou (1999)《Stochastic Control》的比较——YZ 是随机控制的标准教科书（400+ 页），涵盖 viscosity solution、SPDE、mean field game 等高级主题。Øksendal 的 Ch 11 是随机控制的"工程师友好"介绍。

与 Shreve (2004) Ch 6 的比较——Shreve 给 Merton 问题的完整 PDE 推导（用 $\log V$ 试解），但缺少 HJB 一般理论。Øksendal 的 HJB 理论 + 验证定理更系统。

对初学者的建议——本章的 Ex 11.2.1 (Merton) + Ex 11.2.2 (CRRA 效用) + Ex 11.2.3 (消费 + 投资) + Ex 11.2.4 (LQ 控制) 是控制理论的"四大金刚"。亲手做完后，对现代金融工程（Black-Litterman 模型、Risk Parity、波动率曲面拟合）的数学基础就完全掌握。

重要参考文献

[X1] R. C. Merton. Lifetime portfolio selection under uncertainty: The continuous-time case. Review of Economics and Statistics 51(3): 247–257, 1969. DOI: 10.2307/1926560. — Merton 1969 完整模型（消费 + 投资 + 效用），Ch 1 Problem 6 的原始论文。

[X2] R. Bellman. Dynamic Programming. Princeton University Press, 1957. ISBN 978-0691079516. — 动态规划理论（HJB 的"动态规划哲学"）。

[X3] W. H. Fleming. The Cauchy problem for a nonlinear first order partial differential equation. Journal of Differential Equations 5: 515–530, 1969. — HJB 方程的 PDE 严谨化（粘性解的前身）。

[X4] M. H. A. Davis. Linear Estimation and Stochastic Control. Chapman & Hall, 1977. ISBN 978-0412155605. — 随机控制 + 滤波的综合（Ex 11.2.4 引用）。

[X5] W. H. Fleming, R. W. Rishel. Deterministic and Stochastic Optimal Control. Springer, 1975. ISBN 978-0387901554. — 随机控制的 PDE 方法（HJB 教科书）。

[X6] V. E. Beneš. Existence of optimal strategies based on specified information, for a class of stochastic decision problems. SIAM Journal on Control 8: 179–188, 1970. — Itô 控制问题的早期 PDE 方法。

[X7] J. Yong, X. Y. Zhou. Stochastic Controls: Hamiltonian Systems and HJB Equations. Springer, 1999. ISBN 978-0387987231. — 随机控制理论的现代综合（400+ 页，HZ 1-12）。

[X8] M. G. Crandall, P.-L. Lions. Viscosity solutions of Hamilton-Jacobi equations. Transactions of the American Mathematical Society 277(1): 1–42, 1983. — 粘性解理论（HJB 唯一性）。

[X9] J.-M. Lasry, P.-L. Lions. Mean field games. Japanese Journal of Mathematics 2(1): 229–260, 2007. — 平均场博弈（Nash 均衡的 PDE 形式）。

[X10] R. Carmona, F. Fouque, L.-H. Sun. Mean field games and systemic risk. Communications in Mathematical Sciences 13(4): 911–924, 2015. — 平均场控制在金融工程的应用。

[X11] M. H. A. Davis, A. R. Norman. Portfolio selection with transaction costs. Mathematics of Operations Research 15(4): 676–713, 1990. — 交易成本下的最优控制（带约束）。

[X12] I. Karatzas, S. E. Shreve. Methods of Mathematical Finance. Springer, 1998. ISBN 978-0387948393. — 随机控制在金融数学的综合（KS Ch 4-5）。

第 11 章 随机控制的应用（Application to Stochastic Control）

作者