跳转至

第 11 章 随机控制的应用(Application to Stochastic Control)

作者

Bernt Øksendal(奥斯陆大学)。本章是 Ch 1 Problem 6 的解——Merton 最优投资组合问题。HJB 方程(Hamilton-Jacobi-Bellman)是控制理论的"中心方程"。

随机控制理论是 Itô 理论对"决策科学"的最终应用。Beneš 1971 给出 Itô 控制的早期结果;Fleming-Rishel 1975 给出 PDE 方法(HJB);Davis 1977 给出半鞅方法;Yong-Zhou 1999 给出完整理论。本章用 Øksendal 的 PDE-HJB 路径——价值函数 \(\Phi\) 满足 HJB 方程 \(\sup_v \{f^v + L^v \Phi\} = 0\)

Ch 1 Problem 6(Merton 1969)通过效用函数 \(U\) 最大化期望终端财富——HJB 方程 + 边界条件给出最优投资策略 $u^* = $ 常数比例(对 \(\log U\))或显式函数(对 \(U(x) = x^\gamma/\gamma\))。

内容概述

本章正式"回答" Ch 1 提出的 Problem 6:Merton 最优投资组合问题。

本章中心任务:给定受控 SDE \(dX = b(X, u) dt + \sigma(X, u) dB\),求 \(u^* = \arg\sup_u J^u\)

主要内容: 1. 控制问题定义(Ch 11.1):状态 \(X\)\(u\) 控制,性能 \(J^u = E[\int_0^{\tau_G} f^u dt + g(Y_{\tau_G})]\),求 \(\Phi = \sup_u J^u\)。 2. Markov 控制(Def 11.1.4, Rem 11.1-4):\(u(t, X_t)\)(closed-loop / feedback)——决策仅依赖当前状态。 3. HJB 方程(I)必要性(Thm 11.2.1):\(\Phi\) 满足 \(\sup_v \{f^v(y) + L^v \Phi(y)\} = 0\) in \(G\), \(\Phi = g\) on \(\partial G\)。 4. HJB 方程(II)充分性 / verification(Thm 11.2.2):若 \(\varphi\) 满足 \(f^v + L^v \varphi \le 0\) + \(\varphi = g\) on \(\partial G\) + 存在 \(u^0\) 使 \(f^{u^0} + L^{u^0} \varphi = 0\),则 \(\varphi = \Phi\) + \(u^0\) 最优。 5. Markov 控制的"足够性"(Thm 11.2.3):在 HJB 条件下,\(\Phi^M = \Phi^a\)(Markov 控制已足够优)。 6. Merton 投资问题(Ex 11.2.1):\(U(x) = \log x\)\(u^* = (\mu - \rho)/(\sigma^2)\)(与财富无关的常数比例)。 7. 一般效用函数(Ex 11.2.2):\(U(x) = x^\gamma/\gamma\)\(u^*\) 与财富 \(x\) 有关。 8. 带消费 + 终值条件(Ex 11.2.3):\(J^u = E[\int_0^T e^{-\rho t} c_t^{1-\gamma}/(1-\gamma) dt + e^{-\rho T} U(V_T)]\)。 9. Linear-quadratic 控制(Ex 11.2.4):状态线性 + 性能二次 → HJB 化为 Riccati 方程,Separation Principle:滤波 + 确定性控制分开。 10. 一般 HJB(Ch 11.3):时变 + 非 Markov 控制 + 部分观测。 11. 例子:LQR 问题、随机 LQ 调节器。

在全书中位置:应用章。Ch 11 是 Ch 1 Problem 6 的解。综合 Ch 7(生成元 \(A\))+ Ch 8(Feynman-Kac)+ Ch 10(最优停时 = 控制的极端情形 \(U = \{0, 1\}\))的工具。

前置知识:Ch 5(SDE 存在唯一性)+ Ch 7(生成元 + Dynkin)+ Ch 8(Feynman-Kac)+ Ch 10(最优停时作为 \(U = \{0, 1\}\) 的特例)。HJB 方程是 PDE 偏导(\(f + L \Phi = 0\)) + 控制优化(\(\sup_v\)\(\inf_v\))的结合。

核心方程与概念

本章是"应用章"——综合 Ch 5-10 工具解控制问题。下面列出最重要的 11 个对象。

11.1 控制问题定义(Ch 11.1)

受控 SDE: $\(dX^u_t = b(t, X^u_t, u_t)\,dt + \sigma(t, X^u_t, u_t)\,dB_t, \quad X^u_s = x.\)$

性能函数: $\(J^u(s, x) = E^{(s,x)}\!\left[\int_s^{\tilde T} f^u(r, X^u_r)\,dr + g(\tilde T, X^u_{\tilde T}) \mathbf 1_{\tilde T < \infty}\right],\)$

\(\tilde T\) = 首次离开 \(G\) 的时间。

价值函数: $\(\Phi(s, x) = \sup_{u \in \mathcal A} J^u(s, x),\)$

\(\mathcal A\) = admissible control 类(\(\mathcal F^{(m)}_t\)-适应 + 落在 \(U\) 中)。

  • 例子(Ch 1 Problem 6):\(X^u\) 是财富过程 \(V\)\(u\) 是风险资产投资比例,\(f \equiv 0\)(无中间收益),\(g(x) = U(x)\)(终值效用),\(G = [0, T) \times \mathbb R_+\)

11.2 Markov 控制(Def 11.1.4, Rem 11.1-4)

Markov 控制\(u(t, \omega) = u^0(t, X^u_t(\omega))\) 对某个 Borel 函数 \(u^0: \mathbb R \times \mathbb R^n \to U\)

  • 关键:Markov 控制下 \(X^u\) 仍是齐次扩散(Itô 扩散 + 控制)。
  • 几何意义:决策仅依赖当前状态,不依赖历史路径("无记忆的最优策略")。
  • Thm 11.2.3:在 HJB 条件下,\(\Phi^M = \Phi^a\)——Markov 控制已是最优,无需考虑路径依赖控制。

11.3 HJB 方程(I)—— 必要性(Thm 11.2.1)

价值函数 \(\Phi\) 满足: $\(\boxed{\sup_{v \in U} \{f^v(y) + L^v \Phi(y)\} = 0 \quad \forall y \in G, \qquad \Phi = g \text{ on } \partial G.}\)$

其中 \(L^v\)\(Y^v\) 的生成元:\(L^v = \partial_s + \sum b_i^v \partial_i + \tfrac12 \sum a_{ij}^v \partial_{ij}\)

  • 证明关键(Thm 11.2.1):
  • 任意 \(u\) 都有 \(J^u(y) \le \Phi(y)\),强 Markov 性质给 \(J^u(y) = E[\int_0^\alpha f^u dt] + E[J^u(Y_\alpha)]\)
  • \(\alpha = \tau_W\)(首次离开小区域 \(W\))→ 代入 \(\Phi(y) \ge J^u(y)\),用 Dynkin 公式 + 令 \(W \to \{y\}\)\(f^v + L^v \Phi \le 0\)
  • \(u^*\) 达到等号 → 必要性 (11.2.5)。
  • 几何意义:在状态 \(y\),最优控制 \(u^*(y)\) 是"使 \(f^v + L^v \Phi\) 最大的 \(v\)"——贪婪决策(look only at current state)。

11.4 HJB 方程(II)—— 充分性(Thm 11.2.2, Verification)

\(\varphi \in C^2(G) \cap C(\bar G)\) 满足: - (11.2.9):\(f^v(y) + L^v \varphi(y) \le 0\) for all \(v \in U\), \(y \in G\) - (11.2.10):\(\lim_{t \to \tau_G} \varphi(Y_t) = g(Y_{\tau_G}) \mathbf 1_{\tau_G < \infty}\) a.s. - (11.2.11):\(\{\varphi(Y_\tau)\}_{\tau \le \tau_G}\) 一致可积

\(\varphi \ge J^u\) 对所有 Markov 控制 \(u\)若进一步存在 \(u^0\) 使 \(f^{u^0} + L^{u^0} \varphi = 0\),则 \(u^0\) 最优,\(\varphi = \Phi\)

  • 意义HJB 不仅是必要条件,也是充分条件——给定 \(\varphi\) 满足 HJB 不等式 + 边界条件,可直接构造最优控制 \(u^0\)。这是 HJB 在工程中的"实用价值"。

11.5 Markov 控制的足够性(Thm 11.2.3)

\[\Phi^M(y) = \sup_{\text{Markov } u} J^u(y) = \sup_{\mathcal F^{(m)}_t\text{-adapted } u} J^u(y) = \Phi^a(y).\]
  • 条件:存在 Markov 最优控制 \(u^0\) + \(\partial G\)\(Y^{u^0}\) 正则 + \(\Phi^M \in C^2\) 满足 (11.2.16)。
  • 意义Markov 控制是"足够好"——不必考虑路径依赖的复杂控制。这是 Merton 问题求解的关键。

11.6 Merton 投资问题(Ex 11.2.1)

财富过程\(dV_t = [\rho V_t + u_t (\mu - \rho) V_t] dt + u_t \sigma V_t dB_t\)\(u_t\) 是风险资产投资比例。

目标\(\max_u E[\log V_T]\)

  • \(u^* = (\mu - \rho)/\sigma^2\)(与 \(V_t\) 无关的常数比例)。
  • HJB 推导\(L^u V = (\rho + u(\mu - \rho)) V \partial_V + \tfrac12 u^2 \sigma^2 V^2 \partial_{VV}\)\(f \equiv 0\)。HJB 化为 \(\sup_u (\rho + u(\mu - \rho)) V \Phi' + \tfrac12 u^2 \sigma^2 V^2 \Phi'' = 0\)。对 \(u\) 优化 → \(u^* = -(\mu - \rho) \Phi' / (V \sigma^2 \Phi'')\)
  • 验证 \(\Phi = \log V\)\(\Phi' = 1/V\), \(\Phi'' = -1/V^2\)\(u^* = (\mu - \rho)/\sigma^2\)
  • 意义Merton 比率——经典投资组合理论的核心结果(Markowitz-Tobin 框架的"随机版")。

11.7 一般效用函数(Ex 11.2.2)

\(U(x) = x^\gamma / \gamma\)\(0 < \gamma < 1\), CRRA): $\(u^* = \frac{\mu - \rho}{(1 - \gamma) \sigma^2}, \quad V^*_T = e^{rT} \cdot \left(\text{geometric BM-driven by } \sigma^2 \gamma \text{ etc.}\right).\)$

  • 比较\(U = \log x\)\(\gamma = 0\))给出 \(u^* = (\mu - \rho)/\sigma^2\),与 \(U = x^\gamma / \gamma\)\(\gamma \to 0\))一致。
  • 意义:CRRA 效用族是 Merton 问题的"完整解"。

11.8 带消费 + 终值(Ex 11.2.3)

\(J^u = E[\int_0^T e^{-\rho t} c_t^{1-\gamma}/(1-\gamma) dt + e^{-\rho T} U(V_T)]\)

  • 控制变量\(c_t\)(消费率)+ \(u_t\)(投资比例)。
  • HJB 方程\(\sup_{c, u} \{c^{1-\gamma}/(1-\gamma) + (\rho + u(\mu - \rho)) V \Phi' + \tfrac12 u^2 \sigma^2 V^2 \Phi'' - \rho \Phi\} = 0\)
  • \(c^* = \rho^{1/\gamma} \cdot V\)\(c\)\(V\) 成正比),\(u^*\) 与 Ex 11.2.1 类似。
  • 意义消费 + 投资是 Merton 1969 完整模型——生命周期假说的标准公式。

11.9 Linear-Quadratic (LQ) 控制(Ex 11.2.4)

系统\(dX = (A X + B u) dt + C dB\)(线性 + 控制加法)。 性能\(J^u = E[\int_0^T (X^T Q X + u^T R u) dt + X_T^T S X_T]\)

  • HJB 解\(\Phi(x, t) = x^T K(t) x + k_0(t)\)\(K\) 满足矩阵 Riccati 方程 \(\dot K = -K A - A^T K - Q + K B R^{-1} B^T K\)
  • 最优控制\(u^* = -R^{-1} B^T K X\)(线性反馈)。
  • Separation Principle:当控制器只观测 \(R_t\)(带噪)时,可分两步:先用 Kalman 滤波估计 \(X\)(Ch 6),再用 \(u^* = -R^{-1} B^T K \hat X\)——滤波 + 确定性控制独立进行
  • 意义:LQ 控制是 20 世纪控制理论的"金标准"——阿波罗登月、GPS 卫星姿态控制、汽车 ABS 系统都用 LQ 反馈。它把复杂的随机控制简化为"Riccati 方程求解"——一个确定性的 ODE 问题。在工程控制论中,LQ 是"基准方法",任何新控制算法都用 LQ 作为对照

11.10 抛物 HJB 方程

  • 时变情形\(L = \partial_t + \sum b_i^v \partial_i + \tfrac12 \sum a_{ij}^v \partial_{ij}\)——是抛物算子。
  • 边界条件:在 \(G\) 的侧面 + 终端面(\(t = T\))上给定。
  • 数值方法:有限差分 / 有限元(求解偏微分方程)——比直接蒙特卡洛快但需光滑性。

11.11 最小化问题(Rem 11.2.3 末)

\[\Psi(y) = \inf_u J^u(y) = -\sup_u (-J^u(y)),\]

等价于最大化 \(-J\) + 用 \(-f, -g\) 替换。HJB 方程变为 \(\inf_v \{f^v + L^v \Psi\} = 0\)

  • 应用:成本最小化问题(不只是收益最大化)。

关键结论

  1. 价值函数 \(\Phi\) 满足 HJB 方程(Thm 11.2.1)—— 这是控制理论的核心方程。
  2. HJB 是充分条件(Thm 11.2.2)——给定 \(\varphi\) 满足 HJB 不等式 + 边界条件,直接构造 \(u^0\) 使 \(\varphi = \Phi\)
  3. Markov 控制已足够(Thm 11.2.3)——在 HJB 条件下,\(\Phi^M = \Phi^a\)
  4. Merton 最优投资策略\(U = \log x\)\(u^* = (\mu - \rho)/\sigma^2\)(常数比例);\(U = x^\gamma/\gamma\)\(u^* = (\mu - \rho)/[(1-\gamma) \sigma^2]\)
  5. LQ 控制的分离原理:滤波 + 确定性控制可分开。
  6. HJB 方程的 PDE 视角\(\sup_v \{f^v + L^v \Phi\} = 0\)偏微分方程(带 \(\sup\) 算子)。PDE 数值解 是求解控制问题的标准方法。
  7. Verification 步骤是 HJB 在工程中的"实用流程**——给定 HJB 候选解 \(\varphi\)(猜测形式),验证是否满足 (11.2.9) + (11.2.13)。

挑战和开放性问题

  1. HJB 方程的解的唯一性:当 \(U\) 非凸、\(b^v, \sigma^v\) 非线性时,HJB 解不唯一——需要 viscosity solution 理论(Crandall-Lions 1983)。
  2. 非 Markov 控制的"优势":在某些奇异模型(如路径依赖 volatility)下,Markov 控制不是最优——需要 Wong-Zakai 极限、rough paths、McKean-Vlasov 控制。
  3. 高维 HJB 的维数灾难\(\mathbb R^d\) 中 HJB 的离散化是 \(O(N^d)\)——\(d = 10\) 已经不可行。降维方法(Adaptive Sparse Grids, Tensor Train)是当前研究热点。
  4. 部分观测 + 控制的耦合:当状态只能带噪观测时,HJB 化为随机偏微分方程(SPDE)——Zakai 方程 + HJB 耦合。
  5. 平均场控制(Lasry-Lions 2007, Carmona-Fouque 2014):当 \(X\) 的动力学依赖其他"agent"的最优策略时,HJB 方程含 \(\partial_x \Phi\) 的"平均"项——Nash 均衡的 PDE 形式。
  6. 约束控制:当 \(u \in U\) 强约束(如 \(u \in [0, 1]\) 投资比例)时,HJB 的 \(\sup\)\(U\) 边界取极值——bang-bang 控制。
  7. 有限状态控制:当 \(U\) 是有限集时,HJB 化为"比较"多个 \(L^v \Phi\) 的 max——但仍是 PDE。

个人反思与批判性分析

本章是 Itô 理论对"最优决策"的胜利——把"何时投 / 投多少 / 投什么"这种"商业直觉"问题严格化为 HJB 方程 + 验证。

HJB 方程的"魔力"在于把"动态优化"问题转化为"静态 PDE"问题:原本需要对所有路径积分的 \(\sup_u\) 期望,化为单个偏微分方程的解 + 边界值匹配。这是 20 世纪应用数学的重大成就(Bellman 1957 动态规划 + Fleming 1969 PDE)。

Merton 比率的"普适性"\(u^* = (\mu - \rho)/\sigma^2\)\(V_t\) 无关——财富再平衡的比例是常数。这与"风险资产期望收益高于无风险利率时全投风险资产"直觉一致,但量化地给出"超投"——最优比例是 \((\mu - \rho)/\sigma^2\)(不是 \(100\%\))。

消费 + 投资(Ex 11.2.3)的 Merton 1969 完整模型:消费率 \(c^* = \rho^{1/\gamma} V\)与财富成正比)是"持久收入假说"的随机版(Friedman 1957)。生命周期 = 财富积累 + 消费的标准公式。

LQ 控制的 Separation Principle(Ex 11.2.4)是工程控制的"金标准"——把随机控制简化为 Kalman 滤波 + 确定性 LQR 控制。这是 Apollo 导航、月球着陆的实际算法

HJB 方程的局限: - 维数灾难:高维 PDE 难求 - 解的不唯一:非凸问题 - 非 Markov 控制的优势:某些奇异模型

对应用研究的意义: - 金融工程:Merton 模型 + 效用最大化 + 资产定价 - 能源工程:石油开采 + 库存控制 - 机器人:路径规划 + 反馈控制 - 生物:觅食策略 + 迁移决策

与 Yong-Zhou (1999)《Stochastic Control》的比较——YZ 是随机控制的标准教科书(400+ 页),涵盖 viscosity solution、SPDE、mean field game 等高级主题。Øksendal 的 Ch 11 是随机控制的"工程师友好"介绍

与 Shreve (2004) Ch 6 的比较——Shreve 给 Merton 问题的完整 PDE 推导(用 \(\log V\) 试解),但缺少 HJB 一般理论。Øksendal 的 HJB 理论 + 验证定理更系统

对初学者的建议——本章的 Ex 11.2.1 (Merton) + Ex 11.2.2 (CRRA 效用) + Ex 11.2.3 (消费 + 投资) + Ex 11.2.4 (LQ 控制) 是控制理论的"四大金刚"。亲手做完后,对现代金融工程(Black-Litterman 模型、Risk Parity、波动率曲面拟合)的数学基础就完全掌握。

重要参考文献

[X1] R. C. Merton. Lifetime portfolio selection under uncertainty: The continuous-time case. Review of Economics and Statistics 51(3): 247–257, 1969. DOI: 10.2307/1926560. — Merton 1969 完整模型(消费 + 投资 + 效用),Ch 1 Problem 6 的原始论文。

[X2] R. Bellman. Dynamic Programming. Princeton University Press, 1957. ISBN 978-0691079516. — 动态规划理论(HJB 的"动态规划哲学")。

[X3] W. H. Fleming. The Cauchy problem for a nonlinear first order partial differential equation. Journal of Differential Equations 5: 515–530, 1969. — HJB 方程的 PDE 严谨化(粘性解的前身)。

[X4] M. H. A. Davis. Linear Estimation and Stochastic Control. Chapman & Hall, 1977. ISBN 978-0412155605. — 随机控制 + 滤波的综合(Ex 11.2.4 引用)。

[X5] W. H. Fleming, R. W. Rishel. Deterministic and Stochastic Optimal Control. Springer, 1975. ISBN 978-0387901554. — 随机控制的 PDE 方法(HJB 教科书)。

[X6] V. E. Beneš. Existence of optimal strategies based on specified information, for a class of stochastic decision problems. SIAM Journal on Control 8: 179–188, 1970. — Itô 控制问题的早期 PDE 方法。

[X7] J. Yong, X. Y. Zhou. Stochastic Controls: Hamiltonian Systems and HJB Equations. Springer, 1999. ISBN 978-0387987231. — 随机控制理论的现代综合(400+ 页,HZ 1-12)。

[X8] M. G. Crandall, P.-L. Lions. Viscosity solutions of Hamilton-Jacobi equations. Transactions of the American Mathematical Society 277(1): 1–42, 1983. — 粘性解理论(HJB 唯一性)。

[X9] J.-M. Lasry, P.-L. Lions. Mean field games. Japanese Journal of Mathematics 2(1): 229–260, 2007. — 平均场博弈(Nash 均衡的 PDE 形式)。

[X10] R. Carmona, F. Fouque, L.-H. Sun. Mean field games and systemic risk. Communications in Mathematical Sciences 13(4): 911–924, 2015. — 平均场控制在金融工程的应用。

[X11] M. H. A. Davis, A. R. Norman. Portfolio selection with transaction costs. Mathematics of Operations Research 15(4): 676–713, 1990. — 交易成本下的最优控制(带约束)。

[X12] I. Karatzas, S. E. Shreve. Methods of Mathematical Finance. Springer, 1998. ISBN 978-0387948393. — 随机控制在金融数学的综合(KS Ch 4-5)。