第 11 章 随机控制的应用(Application to Stochastic Control)
作者
Bernt Øksendal(奥斯陆大学)。本章是 Ch 1 Problem 6 的解——Merton 最优投资组合问题。HJB 方程(Hamilton-Jacobi-Bellman)是控制理论的"中心方程"。
随机控制理论是 Itô 理论对"决策科学"的最终应用。Beneš 1971 给出 Itô 控制的早期结果;Fleming-Rishel 1975 给出 PDE 方法(HJB);Davis 1977 给出半鞅方法;Yong-Zhou 1999 给出完整理论。本章用 Øksendal 的 PDE-HJB 路径——价值函数 \(\Phi\) 满足 HJB 方程 \(\sup_v \{f^v + L^v \Phi\} = 0\)。
Ch 1 Problem 6(Merton 1969)通过效用函数 \(U\) 最大化期望终端财富——HJB 方程 + 边界条件给出最优投资策略 $u^* = $ 常数比例(对 \(\log U\))或显式函数(对 \(U(x) = x^\gamma/\gamma\))。
内容概述
本章正式"回答" Ch 1 提出的 Problem 6:Merton 最优投资组合问题。
本章中心任务:给定受控 SDE \(dX = b(X, u) dt + \sigma(X, u) dB\),求 \(u^* = \arg\sup_u J^u\)。
主要内容: 1. 控制问题定义(Ch 11.1):状态 \(X\) 受 \(u\) 控制,性能 \(J^u = E[\int_0^{\tau_G} f^u dt + g(Y_{\tau_G})]\),求 \(\Phi = \sup_u J^u\)。 2. Markov 控制(Def 11.1.4, Rem 11.1-4):\(u(t, X_t)\)(closed-loop / feedback)——决策仅依赖当前状态。 3. HJB 方程(I)必要性(Thm 11.2.1):\(\Phi\) 满足 \(\sup_v \{f^v(y) + L^v \Phi(y)\} = 0\) in \(G\), \(\Phi = g\) on \(\partial G\)。 4. HJB 方程(II)充分性 / verification(Thm 11.2.2):若 \(\varphi\) 满足 \(f^v + L^v \varphi \le 0\) + \(\varphi = g\) on \(\partial G\) + 存在 \(u^0\) 使 \(f^{u^0} + L^{u^0} \varphi = 0\),则 \(\varphi = \Phi\) + \(u^0\) 最优。 5. Markov 控制的"足够性"(Thm 11.2.3):在 HJB 条件下,\(\Phi^M = \Phi^a\)(Markov 控制已足够优)。 6. Merton 投资问题(Ex 11.2.1):\(U(x) = \log x\) → \(u^* = (\mu - \rho)/(\sigma^2)\)(与财富无关的常数比例)。 7. 一般效用函数(Ex 11.2.2):\(U(x) = x^\gamma/\gamma\) → \(u^*\) 与财富 \(x\) 有关。 8. 带消费 + 终值条件(Ex 11.2.3):\(J^u = E[\int_0^T e^{-\rho t} c_t^{1-\gamma}/(1-\gamma) dt + e^{-\rho T} U(V_T)]\)。 9. Linear-quadratic 控制(Ex 11.2.4):状态线性 + 性能二次 → HJB 化为 Riccati 方程,Separation Principle:滤波 + 确定性控制分开。 10. 一般 HJB(Ch 11.3):时变 + 非 Markov 控制 + 部分观测。 11. 例子:LQR 问题、随机 LQ 调节器。
在全书中位置:应用章。Ch 11 是 Ch 1 Problem 6 的解。综合 Ch 7(生成元 \(A\))+ Ch 8(Feynman-Kac)+ Ch 10(最优停时 = 控制的极端情形 \(U = \{0, 1\}\))的工具。
前置知识:Ch 5(SDE 存在唯一性)+ Ch 7(生成元 + Dynkin)+ Ch 8(Feynman-Kac)+ Ch 10(最优停时作为 \(U = \{0, 1\}\) 的特例)。HJB 方程是 PDE 偏导(\(f + L \Phi = 0\)) + 控制优化(\(\sup_v\) 或 \(\inf_v\))的结合。
核心方程与概念
本章是"应用章"——综合 Ch 5-10 工具解控制问题。下面列出最重要的 11 个对象。
11.1 控制问题定义(Ch 11.1)
受控 SDE: $\(dX^u_t = b(t, X^u_t, u_t)\,dt + \sigma(t, X^u_t, u_t)\,dB_t, \quad X^u_s = x.\)$
性能函数: $\(J^u(s, x) = E^{(s,x)}\!\left[\int_s^{\tilde T} f^u(r, X^u_r)\,dr + g(\tilde T, X^u_{\tilde T}) \mathbf 1_{\tilde T < \infty}\right],\)$
\(\tilde T\) = 首次离开 \(G\) 的时间。
价值函数: $\(\Phi(s, x) = \sup_{u \in \mathcal A} J^u(s, x),\)$
\(\mathcal A\) = admissible control 类(\(\mathcal F^{(m)}_t\)-适应 + 落在 \(U\) 中)。
- 例子(Ch 1 Problem 6):\(X^u\) 是财富过程 \(V\),\(u\) 是风险资产投资比例,\(f \equiv 0\)(无中间收益),\(g(x) = U(x)\)(终值效用),\(G = [0, T) \times \mathbb R_+\)。
11.2 Markov 控制(Def 11.1.4, Rem 11.1-4)
Markov 控制:\(u(t, \omega) = u^0(t, X^u_t(\omega))\) 对某个 Borel 函数 \(u^0: \mathbb R \times \mathbb R^n \to U\)。
- 关键:Markov 控制下 \(X^u\) 仍是齐次扩散(Itô 扩散 + 控制)。
- 几何意义:决策仅依赖当前状态,不依赖历史路径("无记忆的最优策略")。
- Thm 11.2.3:在 HJB 条件下,\(\Phi^M = \Phi^a\)——Markov 控制已是最优,无需考虑路径依赖控制。
11.3 HJB 方程(I)—— 必要性(Thm 11.2.1)
价值函数 \(\Phi\) 满足: $\(\boxed{\sup_{v \in U} \{f^v(y) + L^v \Phi(y)\} = 0 \quad \forall y \in G, \qquad \Phi = g \text{ on } \partial G.}\)$
其中 \(L^v\) 是 \(Y^v\) 的生成元:\(L^v = \partial_s + \sum b_i^v \partial_i + \tfrac12 \sum a_{ij}^v \partial_{ij}\)。
- 证明关键(Thm 11.2.1):
- 任意 \(u\) 都有 \(J^u(y) \le \Phi(y)\),强 Markov 性质给 \(J^u(y) = E[\int_0^\alpha f^u dt] + E[J^u(Y_\alpha)]\)。
- 取 \(\alpha = \tau_W\)(首次离开小区域 \(W\))→ 代入 \(\Phi(y) \ge J^u(y)\),用 Dynkin 公式 + 令 \(W \to \{y\}\) 得 \(f^v + L^v \Phi \le 0\)。
- 对 \(u^*\) 达到等号 → 必要性 (11.2.5)。
- 几何意义:在状态 \(y\),最优控制 \(u^*(y)\) 是"使 \(f^v + L^v \Phi\) 最大的 \(v\)"——贪婪决策(look only at current state)。
11.4 HJB 方程(II)—— 充分性(Thm 11.2.2, Verification)
若 \(\varphi \in C^2(G) \cap C(\bar G)\) 满足: - (11.2.9):\(f^v(y) + L^v \varphi(y) \le 0\) for all \(v \in U\), \(y \in G\) - (11.2.10):\(\lim_{t \to \tau_G} \varphi(Y_t) = g(Y_{\tau_G}) \mathbf 1_{\tau_G < \infty}\) a.s. - (11.2.11):\(\{\varphi(Y_\tau)\}_{\tau \le \tau_G}\) 一致可积
则 \(\varphi \ge J^u\) 对所有 Markov 控制 \(u\)。若进一步存在 \(u^0\) 使 \(f^{u^0} + L^{u^0} \varphi = 0\),则 \(u^0\) 最优,\(\varphi = \Phi\)。
- 意义:HJB 不仅是必要条件,也是充分条件——给定 \(\varphi\) 满足 HJB 不等式 + 边界条件,可直接构造最优控制 \(u^0\)。这是 HJB 在工程中的"实用价值"。
11.5 Markov 控制的足够性(Thm 11.2.3)
- 条件:存在 Markov 最优控制 \(u^0\) + \(\partial G\) 对 \(Y^{u^0}\) 正则 + \(\Phi^M \in C^2\) 满足 (11.2.16)。
- 意义:Markov 控制是"足够好"——不必考虑路径依赖的复杂控制。这是 Merton 问题求解的关键。
11.6 Merton 投资问题(Ex 11.2.1)
财富过程:\(dV_t = [\rho V_t + u_t (\mu - \rho) V_t] dt + u_t \sigma V_t dB_t\),\(u_t\) 是风险资产投资比例。
目标:\(\max_u E[\log V_T]\)。
- 解:\(u^* = (\mu - \rho)/\sigma^2\)(与 \(V_t\) 无关的常数比例)。
- HJB 推导:\(L^u V = (\rho + u(\mu - \rho)) V \partial_V + \tfrac12 u^2 \sigma^2 V^2 \partial_{VV}\),\(f \equiv 0\)。HJB 化为 \(\sup_u (\rho + u(\mu - \rho)) V \Phi' + \tfrac12 u^2 \sigma^2 V^2 \Phi'' = 0\)。对 \(u\) 优化 → \(u^* = -(\mu - \rho) \Phi' / (V \sigma^2 \Phi'')\)。
- 验证 \(\Phi = \log V\):\(\Phi' = 1/V\), \(\Phi'' = -1/V^2\) → \(u^* = (\mu - \rho)/\sigma^2\)。
- 意义:Merton 比率——经典投资组合理论的核心结果(Markowitz-Tobin 框架的"随机版")。
11.7 一般效用函数(Ex 11.2.2)
\(U(x) = x^\gamma / \gamma\)(\(0 < \gamma < 1\), CRRA): $\(u^* = \frac{\mu - \rho}{(1 - \gamma) \sigma^2}, \quad V^*_T = e^{rT} \cdot \left(\text{geometric BM-driven by } \sigma^2 \gamma \text{ etc.}\right).\)$
- 比较:\(U = \log x\)(\(\gamma = 0\))给出 \(u^* = (\mu - \rho)/\sigma^2\),与 \(U = x^\gamma / \gamma\)(\(\gamma \to 0\))一致。
- 意义:CRRA 效用族是 Merton 问题的"完整解"。
11.8 带消费 + 终值(Ex 11.2.3)
\(J^u = E[\int_0^T e^{-\rho t} c_t^{1-\gamma}/(1-\gamma) dt + e^{-\rho T} U(V_T)]\)。
- 控制变量:\(c_t\)(消费率)+ \(u_t\)(投资比例)。
- HJB 方程:\(\sup_{c, u} \{c^{1-\gamma}/(1-\gamma) + (\rho + u(\mu - \rho)) V \Phi' + \tfrac12 u^2 \sigma^2 V^2 \Phi'' - \rho \Phi\} = 0\)。
- 解:\(c^* = \rho^{1/\gamma} \cdot V\)(\(c\) 与 \(V\) 成正比),\(u^*\) 与 Ex 11.2.1 类似。
- 意义:消费 + 投资是 Merton 1969 完整模型——生命周期假说的标准公式。
11.9 Linear-Quadratic (LQ) 控制(Ex 11.2.4)
系统:\(dX = (A X + B u) dt + C dB\)(线性 + 控制加法)。 性能:\(J^u = E[\int_0^T (X^T Q X + u^T R u) dt + X_T^T S X_T]\)。
- HJB 解:\(\Phi(x, t) = x^T K(t) x + k_0(t)\),\(K\) 满足矩阵 Riccati 方程 \(\dot K = -K A - A^T K - Q + K B R^{-1} B^T K\)。
- 最优控制:\(u^* = -R^{-1} B^T K X\)(线性反馈)。
- Separation Principle:当控制器只观测 \(R_t\)(带噪)时,可分两步:先用 Kalman 滤波估计 \(X\)(Ch 6),再用 \(u^* = -R^{-1} B^T K \hat X\)——滤波 + 确定性控制独立进行。
- 意义:LQ 控制是 20 世纪控制理论的"金标准"——阿波罗登月、GPS 卫星姿态控制、汽车 ABS 系统都用 LQ 反馈。它把复杂的随机控制简化为"Riccati 方程求解"——一个确定性的 ODE 问题。在工程控制论中,LQ 是"基准方法",任何新控制算法都用 LQ 作为对照。
11.10 抛物 HJB 方程
- 时变情形:\(L = \partial_t + \sum b_i^v \partial_i + \tfrac12 \sum a_{ij}^v \partial_{ij}\)——是抛物算子。
- 边界条件:在 \(G\) 的侧面 + 终端面(\(t = T\))上给定。
- 数值方法:有限差分 / 有限元(求解偏微分方程)——比直接蒙特卡洛快但需光滑性。
11.11 最小化问题(Rem 11.2.3 末)
等价于最大化 \(-J\) + 用 \(-f, -g\) 替换。HJB 方程变为 \(\inf_v \{f^v + L^v \Psi\} = 0\)。
- 应用:成本最小化问题(不只是收益最大化)。
关键结论
- 价值函数 \(\Phi\) 满足 HJB 方程(Thm 11.2.1)—— 这是控制理论的核心方程。
- HJB 是充分条件(Thm 11.2.2)——给定 \(\varphi\) 满足 HJB 不等式 + 边界条件,直接构造 \(u^0\) 使 \(\varphi = \Phi\)。
- Markov 控制已足够(Thm 11.2.3)——在 HJB 条件下,\(\Phi^M = \Phi^a\)。
- Merton 最优投资策略:\(U = \log x\) → \(u^* = (\mu - \rho)/\sigma^2\)(常数比例);\(U = x^\gamma/\gamma\) → \(u^* = (\mu - \rho)/[(1-\gamma) \sigma^2]\)。
- LQ 控制的分离原理:滤波 + 确定性控制可分开。
- HJB 方程的 PDE 视角:\(\sup_v \{f^v + L^v \Phi\} = 0\) 是偏微分方程(带 \(\sup\) 算子)。PDE 数值解 是求解控制问题的标准方法。
- Verification 步骤是 HJB 在工程中的"实用流程**——给定 HJB 候选解 \(\varphi\)(猜测形式),验证是否满足 (11.2.9) + (11.2.13)。
挑战和开放性问题
- HJB 方程的解的唯一性:当 \(U\) 非凸、\(b^v, \sigma^v\) 非线性时,HJB 解不唯一——需要 viscosity solution 理论(Crandall-Lions 1983)。
- 非 Markov 控制的"优势":在某些奇异模型(如路径依赖 volatility)下,Markov 控制不是最优——需要 Wong-Zakai 极限、rough paths、McKean-Vlasov 控制。
- 高维 HJB 的维数灾难:\(\mathbb R^d\) 中 HJB 的离散化是 \(O(N^d)\)——\(d = 10\) 已经不可行。降维方法(Adaptive Sparse Grids, Tensor Train)是当前研究热点。
- 部分观测 + 控制的耦合:当状态只能带噪观测时,HJB 化为随机偏微分方程(SPDE)——Zakai 方程 + HJB 耦合。
- 平均场控制(Lasry-Lions 2007, Carmona-Fouque 2014):当 \(X\) 的动力学依赖其他"agent"的最优策略时,HJB 方程含 \(\partial_x \Phi\) 的"平均"项——Nash 均衡的 PDE 形式。
- 约束控制:当 \(u \in U\) 强约束(如 \(u \in [0, 1]\) 投资比例)时,HJB 的 \(\sup\) 在 \(U\) 边界取极值——bang-bang 控制。
- 有限状态控制:当 \(U\) 是有限集时,HJB 化为"比较"多个 \(L^v \Phi\) 的 max——但仍是 PDE。
个人反思与批判性分析
本章是 Itô 理论对"最优决策"的胜利——把"何时投 / 投多少 / 投什么"这种"商业直觉"问题严格化为 HJB 方程 + 验证。
HJB 方程的"魔力"在于把"动态优化"问题转化为"静态 PDE"问题:原本需要对所有路径积分的 \(\sup_u\) 期望,化为单个偏微分方程的解 + 边界值匹配。这是 20 世纪应用数学的重大成就(Bellman 1957 动态规划 + Fleming 1969 PDE)。
Merton 比率的"普适性":\(u^* = (\mu - \rho)/\sigma^2\) 与 \(V_t\) 无关——财富再平衡的比例是常数。这与"风险资产期望收益高于无风险利率时全投风险资产"直觉一致,但量化地给出"超投"——最优比例是 \((\mu - \rho)/\sigma^2\)(不是 \(100\%\))。
消费 + 投资(Ex 11.2.3)的 Merton 1969 完整模型:消费率 \(c^* = \rho^{1/\gamma} V\)(与财富成正比)是"持久收入假说"的随机版(Friedman 1957)。生命周期 = 财富积累 + 消费的标准公式。
LQ 控制的 Separation Principle(Ex 11.2.4)是工程控制的"金标准"——把随机控制简化为 Kalman 滤波 + 确定性 LQR 控制。这是 Apollo 导航、月球着陆的实际算法。
HJB 方程的局限: - 维数灾难:高维 PDE 难求 - 解的不唯一:非凸问题 - 非 Markov 控制的优势:某些奇异模型
对应用研究的意义: - 金融工程:Merton 模型 + 效用最大化 + 资产定价 - 能源工程:石油开采 + 库存控制 - 机器人:路径规划 + 反馈控制 - 生物:觅食策略 + 迁移决策
与 Yong-Zhou (1999)《Stochastic Control》的比较——YZ 是随机控制的标准教科书(400+ 页),涵盖 viscosity solution、SPDE、mean field game 等高级主题。Øksendal 的 Ch 11 是随机控制的"工程师友好"介绍。
与 Shreve (2004) Ch 6 的比较——Shreve 给 Merton 问题的完整 PDE 推导(用 \(\log V\) 试解),但缺少 HJB 一般理论。Øksendal 的 HJB 理论 + 验证定理更系统。
对初学者的建议——本章的 Ex 11.2.1 (Merton) + Ex 11.2.2 (CRRA 效用) + Ex 11.2.3 (消费 + 投资) + Ex 11.2.4 (LQ 控制) 是控制理论的"四大金刚"。亲手做完后,对现代金融工程(Black-Litterman 模型、Risk Parity、波动率曲面拟合)的数学基础就完全掌握。
重要参考文献
[X1] R. C. Merton. Lifetime portfolio selection under uncertainty: The continuous-time case. Review of Economics and Statistics 51(3): 247–257, 1969. DOI: 10.2307/1926560. — Merton 1969 完整模型(消费 + 投资 + 效用),Ch 1 Problem 6 的原始论文。
[X2] R. Bellman. Dynamic Programming. Princeton University Press, 1957. ISBN 978-0691079516. — 动态规划理论(HJB 的"动态规划哲学")。
[X3] W. H. Fleming. The Cauchy problem for a nonlinear first order partial differential equation. Journal of Differential Equations 5: 515–530, 1969. — HJB 方程的 PDE 严谨化(粘性解的前身)。
[X4] M. H. A. Davis. Linear Estimation and Stochastic Control. Chapman & Hall, 1977. ISBN 978-0412155605. — 随机控制 + 滤波的综合(Ex 11.2.4 引用)。
[X5] W. H. Fleming, R. W. Rishel. Deterministic and Stochastic Optimal Control. Springer, 1975. ISBN 978-0387901554. — 随机控制的 PDE 方法(HJB 教科书)。
[X6] V. E. Beneš. Existence of optimal strategies based on specified information, for a class of stochastic decision problems. SIAM Journal on Control 8: 179–188, 1970. — Itô 控制问题的早期 PDE 方法。
[X7] J. Yong, X. Y. Zhou. Stochastic Controls: Hamiltonian Systems and HJB Equations. Springer, 1999. ISBN 978-0387987231. — 随机控制理论的现代综合(400+ 页,HZ 1-12)。
[X8] M. G. Crandall, P.-L. Lions. Viscosity solutions of Hamilton-Jacobi equations. Transactions of the American Mathematical Society 277(1): 1–42, 1983. — 粘性解理论(HJB 唯一性)。
[X9] J.-M. Lasry, P.-L. Lions. Mean field games. Japanese Journal of Mathematics 2(1): 229–260, 2007. — 平均场博弈(Nash 均衡的 PDE 形式)。
[X10] R. Carmona, F. Fouque, L.-H. Sun. Mean field games and systemic risk. Communications in Mathematical Sciences 13(4): 911–924, 2015. — 平均场控制在金融工程的应用。
[X11] M. H. A. Davis, A. R. Norman. Portfolio selection with transaction costs. Mathematics of Operations Research 15(4): 676–713, 1990. — 交易成本下的最优控制(带约束)。
[X12] I. Karatzas, S. E. Shreve. Methods of Mathematical Finance. Springer, 1998. ISBN 978-0387948393. — 随机控制在金融数学的综合(KS Ch 4-5)。