跳转至

第 3 章 变分原理(Variational Principles)

作者

同 Ch 1、Ch 2,Thomas Witelski(Duke University,数学系)和 Mark Bowen(Waseda University,国际理工学中心)合著。本章是 Part I 的第 3 章——四章"建模方法"中最抽象、数学结构最深的一章。

本章在全书中的定位:从"已知方程"转到"从优化原理导出方程"。Ch 1(ODE)和 Ch 2(PDE)默认读者已接受"力 = \(m\ddot x\)"、"\(\rho_t + \nabla \cdot (\rho v) = 0\)"作为出发点;Ch 3 反向走:给定一个待优化的目标泛函(objective functional),推导出最优解满足的微分方程。这种"从泛函到方程"的方法论把力学(Fermat、Hamilton)、光学(Snell)、几何(等周问题)统一在同一框架下。

内容概述

本章回答两个核心问题:(i) 如何把"求一个最优函数"(如最速降线、最短路径、最小作用量)的物理/几何问题严格地转化为变分问题? (ii) 变分问题的边界条件约束条件如何影响 Euler-Lagrange 方程的形式?

章节结构: 1. §3.1 微积分回顾与泛函概念:从单变量 / 多变量微积分的极值条件 \(\nabla f^* = 0\) 类比到"对函数求极值"——即泛函(functional) \(J(y) = \int L(x, y, y') dx\) 的极值。 2. §3.2 经典 Euler-Lagrange 方程(最简形式 \(L = L(x, y, y')\)):以"最短路径"为引例,演示四步法(扰动展开 → 一阶变分 → 边界条件 → 变分学基本引理),得到 Euler-Lagrange 方程 (3.21): $\(\frac{\partial L}{\partial y} - \frac{d}{dx}\frac{\partial L}{\partial y'} = 0\)$ 3. §3.3 经典力学的变分表述:引入 Hamilton 最小作用量原理 \(I = \int L dt\)\(L = T - V\)。证明 Euler-Lagrange 方程在 \(L = \frac{1}{2}m\dot y^2 - V(y)\) 时等价于牛顿第二定律。扩展到多自由度(3.25a, b)和多粒子。 4. §3.4 边界条件的影响:从 Dirichlet 边界条件扩展到 (a) 自由边界(仅一端固定,要求自然边界条件 \(y'(1) = 0\)),(b) 可变端点(端点本身是未知量,要求横截条件 \(y'(b^*) = -1/f'(b^*)\),即"垂直相交")。 5. §3.5 约束优化的 Lagrange 乘子法(3.5.1 复习)。 6. §3.6 等周问题(isoperimetric):约束是积分形式 \(G = \int g \, dx = 0\)(如固定周长最大面积)。乘子 \(\lambda\) 是常数,Euler-Lagrange 方程的"目标项 + 约束项"形式不变。 7. §3.7 完整约束(holonomic):约束是逐点形式 \(g(x(t), y(t), t) = 0\)(如滑道上的过山车)。乘子 \(\lambda(t)\)时间函数。 8. §3.8 最优控制(optimal control):约束是微分方程形式 \(dx/dt = f(t, x, u)\)(state equation)。目标是找控制函数 \(u(t)\) 使系统从 \(x(0) = x_0\) 到达 \(x(T) = x_1\) 同时最小化代价 \(\int L dt\)这是变分法最深刻的应用——导出共态方程(co-state equation, 3.56)Pontryagin 原理的形式(3.55)。

前置知识:Ch 1 全部内容(ODE)、Ch 2 至少 §2.2 守恒律和 du Bois-Reymond 引理、多变量微积分(特别是 Lagrange 乘子的几何意义:约束曲面的法向与目标函数等高线的法向平行)。

核心方程与概念

1. 泛函与变分学基本引理(§3.1, eq. 3.5, 3.14)

泛函 \(J(y) = \int_a^b L(x, y(x), y'(x)) dx\) 是"输入一个函数 \(y(x)\)、输出一个标量"的映射。

变分学基本引理(Fundamental Lemma, 3.14):若 \(\int_a^b g(x) h(x) dx = 0\)所有光滑 \(h(x)\) 成立,则 \(g(x) \equiv 0\)。这与 Ch 2 的 du Bois-Reymond 引理 (2.11) 紧密相关——后者是取 \(h\) 为子区间上的指示函数。

变分步骤(四步法,§3.2): 1. 引入扰动 \(\tilde y = y^* + \varepsilon h(x)\) 2. Taylor 展开 \(J(\tilde y) = J^* + \varepsilon (\text{一阶变分}) + O(\varepsilon^2)\) 3. 一阶变分通过分部积分化为 \(\int [\text{Euler-Lagrange 表达式}] \cdot h \, dx + \text{边界项}\) 4. 应用基本引理 + 边界条件 → Euler-Lagrange 方程

2. Euler-Lagrange 方程(§3.2, eq. 3.21)

\(J(y) = \int_a^b L(x, y, y') dx\) 在固定 Dirichlet 边界 \(y(a) = c, y(b) = d\) 下取极值:

\[\boxed{\frac{\partial L}{\partial y} - \frac{d}{dx}\frac{\partial L}{\partial y'} = 0} \tag{3.21}\]

这是变分法的"中心方程"。

最短路径例子(3.10a, 3.16):\(L = \sqrt{1 + (y')^2}\),代入 (3.21) 给出 \(\frac{d}{dx}\left[\frac{y'}{\sqrt{1 + (y')^2}}\right] = 0\),积分得 \(y = bx\)(直线)。

最速降线(brachistochrone, eq. 3.6, 习题 3.8):在重力作用下从 \((0, 1)\)\((1, 0)\) 找最速曲线,是历史上第一个变分问题(1696 Johann Bernoulli)。答案是旋轮线(cycloid)——变分法的诞生问题。

3. Hamilton 原理与经典力学(§3.3, eq. 3.22–3.23)

将 Euler-Lagrange 方程(3.21)变量重标 \(x \to t, y \to q(t)\)(位置),则 \(L(t, q, \dot q)\) 是 Lagrangian。作用量(action)\(I = \int L dt\) 取得驻值时:

\[\frac{\partial L}{\partial q} - \frac{d}{dt}\frac{\partial L}{\partial \dot q} = 0 \tag{3.22}\]

\(L = T - V\)(动能减势能,3.23),则 (3.22) 等价于 \(\frac{d}{dt}(m\dot q) = -\frac{\partial V}{\partial q}\)(牛顿第二定律)。

多自由度(3.25a, b):对 \(L(t, q_1, \ldots, q_n, \dot q_1, \ldots, \dot q_n)\),每个 \(q_i\) 都有独立的 Euler-Lagrange 方程。

核心洞察:从变分原理得到的运动方程比牛顿第二定律更普适——它直接推广到 (a) 曲线坐标(非惯性系),(b) 多个耦合约束(见 §3.7),(c) 量子场论(路径积分),(d) 相对论性力学(Lorentz 不变的 action)。

4. 边界条件的三种类型(§3.4)

类型 设置 自然边界条件
Dirichlet \(y(a) = c, y(b) = d\) 固定 无(边界由问题指定)
自由边界(§3.4.1) \(y(0) = 0\) 固定 \(y'(1) = 0\)(来自边界项为零的要求)
可变端点(§3.4.2) 端点 \((b, f(b))\) 在曲线上 横截条件 \(y'(b^*) = -1/f'(b^*)\):解与曲线垂直相交(3.30)

5. 约束优化的三类问题(§3.5–3.8)

统一框架:构造增广 Lagrange 量 \(\mathcal{L} = L - \lambda g\),对所有未知量取一阶变分为零。

约束类型 \(g\) 形式 乘子 例子
等周(§3.6, eq. 3.36–3.40) 积分 \(\int g \, dx = 0\) 常数 \(\lambda\) 给定周长最大面积(解是圆弧,3.40)
完整/几何(§3.7, 3.41–3.42) 逐点 \(g(x, y, t) = 0\) 时变 \(\lambda(t)\) 滑道上的过山车
最优控制(§3.8, 3.44–3.57) 微分方程 \(dx/dt = f(t, x, u)\) 时变 \(\lambda(t)\)共态 最短时间到达 / 最小能量控制

6. Pontryagin 最大值原理(§3.8, eq. 3.53–3.57)

Hamiltonian 定义(3.53, 3.54): $\(H \equiv L - x' \frac{\partial \mathcal{L}}{\partial x'} = L + \lambda f\)$

核心方程组(3.55–3.57): - 状态方程\(\frac{\partial \mathcal{L}}{\partial \lambda} = 0 \Rightarrow \frac{dx}{dt} = f(t, x, u)\) - 共态方程\(\frac{\partial L}{\partial x} - \frac{d}{dt}\frac{\partial L}{\partial x'} = 0 \Rightarrow \frac{d\lambda}{dt} = -\frac{\partial L}{\partial x} - \lambda \frac{\partial f}{\partial x}\)(3.56) - 控制最优条件\(\frac{\partial L}{\partial u} + \lambda \frac{\partial f}{\partial u} = 0\)(3.57,\(u\) 无约束时) - Hamiltonian 边界条件\(H(T^*) = 0\);若 \(L\) 不显式依赖于 \(t\)(自治系统),则 \(H \equiv 0\)(3.55)

(§3.8 末尾, 3.58+):\(dx/dt = -3x + u\)\(x(0) = 2\)\(x(T) = 5\),最小化 \(J = \frac{1}{2}\int_0^T u^2 dt\)。解:\(u^*(t) = Ae^{3t}\)\(x^*(t) = Be^{-3t} + \frac{A}{6}e^{3t}\),由 \(H = 3AB = 0\) 给出 \(B = 0\)\(A = 0\) 退化),故 \(x^*(t) = 2e^{3t}\)\(T^* = \frac{1}{3}\ln(5/2)\)最优控制让原本指数衰减的无控系统指数增长到目标——这是控制理论的"魔术"。

关键结论

  1. Euler-Lagrange 方程 (3.21) 是变分法的不动点:无论 \(L\) 是什么具体形式(动能-势能差、弧长、面积、作用量),极值条件都归结到 (3.21)。这让变分法成为"求最优"的通用工具。Ch 12 末尾的"Plateau 边界"问题和 Ch 8 末尾的"BBM 孤子"问题都会回到此方程。
  2. Hamilton 最小作用量原理(§3.3)与 Newton 第二定律等价,但更普适
  3. \(L = T - V\),Euler-Lagrange 方程 (3.22) 严格等于 Newton 第二定律;
  4. 但在曲线坐标(如球坐标)、多体耦合(如 N-body 引力)、相对论性情形下,\(L\) 的形式自然给出 \(\nabla\) 算子从直角坐标到曲线坐标的转换,比直接写 Newton 第二定律(需要计算 Christoffel 符号)简单得多
  5. 这是分析力学(analytical mechanics)的核心价值:用同一个变分框架统一各种力学。
  6. 边界条件决定解的"资格":Euler-Lagrange 方程 (3.21) 只是必要条件,具体解由边界条件选定。不同边界条件(Dirichlet / 自由 / 可变端点)给出完全不同的解——例:自由边界问题 (3.4.1) 的最短路径是 \(y \equiv 0\)(沿 \(x\) 轴到 \(x=1\)),而 Dirichlet 问题 (3.2.1) 是 \(y = bx\)(直接连接)。
  7. 等周问题的解通常是圆弧(§3.6 末尾, Fig. 3.4):最大化面积 + 固定周长("鼓膜问题")的解是弧形圆,等价于二维气泡的形状方程(Young-Laplace 方程的零压差极限)。这是几何、物理、化学(表面张力)的共同起源
  8. 完整约束(holonomic)vs. 非完整(non-holonomic):§3.7 的约束 \(g(q, t) = 0\) 称为完整约束——可以通过坐标变换消去一个自由度;非完整约束(如轮子"只能前进不能侧移"的速度约束 \(dq_1/dq_2 = \tan\theta\)不可积,Euler-Lagrange 方程需要 Lagrange-d'Alembert 原理处理。本章没有涉及非完整约束——这是 Ch 3 的一个重要限制。
  9. Pontryagin 最大值原理(§3.8)是变分法对带约束 ODE 的推广:
  10. 状态方程 \(\dot x = f(t, x, u)\)约束
  11. 目标泛函 \(\int L dt\)待优化的目标
  12. 共态 \(\lambda(t)\) 是把约束"嵌入"目标泛函的 Lagrange 乘子
  13. Hamiltonian \(H = L + \lambda f\) 把状态和共态"耦合"——这正是 Hamilton 力学的核心数据结构
  14. 最优控制理论 → Hamilton-Jacobi-Bellman 方程 → 动态规划,是现代控制论(Kalman, 1960s)、金融数学(Black-Scholes, 1970s)、机器学习(强化学习, 2010s)的共同数学基础。
  15. 第二变分(second variation)决定极值的"类型":一阶变分为零给出 Euler-Lagrange 方程(必要条件),二阶变分的符号决定是极大、极小还是鞍点。作者在脚注 3 中提到这一点,但没有展开。习题 3.2 留给读者"二阶导数判别法"作为练习。

挑战和开放性问题

  1. 变分问题的"存在性":本书默认最优解 \(y^*(x)\) 存在,然后推导它满足的方程。严格的存在性需要直接法(direct methods)——在某个函数空间(如 Sobolev 空间 \(H^1\))取极小化序列并证明其收敛到极小元。这是 Hilbert 第 20 问题(1900)的内容,由 Tonelli(1920s)解决。本章完全跳过这一严格化。
  2. 第二变分判别法的"判别"强度有限:当二阶变分 \(= 0\)(即退化情形),需要更高阶变分才能判别极值类型。这在 Morse 理论(Morse 1934)中得到系统化处理:临界点 = 拓扑信息(如流形上的闭测地线)。本章没有触及 Morse 理论。
  3. §3.6 末尾的"S > π/2 时解不存在":作者在 isoperimetric 问题中指出"当约束的弧长 \(S\) 太大时,(3.40) 不再 valid"——这暗示函数图 \(y = y(x)\) 表示形式不足,需要参数化曲线 \((x(t), y(t))\)严格的等周问题(最大化 \(\int y dx\) subject to \(\int \sqrt{1 + (y')^2} dx = S\))解的存在性需要重参数化不变性——这一几何不变性恰恰是 Plateau 问题(§3.7 末尾、Ch 12 末尾)的研究起点。
  4. §3.7 的"完整约束"是机械力学的特例:物理上,"完整"指约束可积(即 \(g(q, t) = 0\) 可作为坐标约束处理)。非完整约束(如汽车只能在地面上滚动不能侧滑)需要虚功原理 + Lagrange-d'Alembert 而非简单乘子。Ch 3 没有涉及。这是非完整力学的入门(参见 Bloch [X2])。
  5. §3.8 的最优控制理论是"小步长、精确控制"假设:作者在 §3.8 隐含假设 \(u(t)\)无约束的连续函数。实际工程中 \(u\) 常有约束(如油门 \(\in [0, 1]\),机械臂转角 \(\in [-\pi/2, \pi/2]\)),需要Pontryagin 最大值原理(maximum principle)的真正形式——\(H(t, x^*, u^*, \lambda^*) = \max_u H(t, x^*, u, \lambda^*)\)——在 \(\partial H/\partial u = 0\)(内点解)和"控制取边界值"(bang-bang 控制)之间切换。本章的 (3.57) 实际上只对应内点解情形。
  6. Euler-Lagrange 方程的奇异性:若 \(L_{y' y'} = 0\)(如 \(L = (y')^{1/3}\)),则 (3.21) 退化,需要Ostrogradsky 不稳定性分析。这是 Ch 6(奇异扰动)的前置知识。
  7. 从有限维到无穷维变分:Ch 3 全部是有限维变分(函数 \(y(x)\) 是有限维参数化)。无穷维变分(\(y\) 本身是函数)需要函数空间分析(Frechet 导数、Sobolev 空间、变分问题的直接法)。Ch 8-9 的 KdV 孤子稳定性、Ch 12 的 Plateau 曲面(最小曲面)都是无穷维变分问题。
  8. Lagrangian 场论(field theory)的多维推广:Euler-Lagrange 方程 (3.21) 是 1D 情形,对多维 Lagrangian 密度 \(\mathcal{L}(t, \mathbf{x}, u, \nabla u)\)\(u = u(\mathbf{x}, t)\) 是场),变分给出 $\(\frac{\partial \mathcal{L}}{\partial u} - \nabla \cdot \frac{\partial \mathcal{L}}{\partial \nabla u} = 0\)$ 这是经典场论量子场论的核心方程(Dirac 方程、Klein-Gordon 方程、Yang-Mills 方程都从对应的 \(\mathcal{L}\) 导出)。本书没有专题处理——习题 3.1 末尾提"multiple integrals"作为延伸。

个人反思与批判性分析

本章在数学深度上明显高于 Ch 1-2:从"对函数求极值"到 Euler-Lagrange 方程的推导,每一步都涉及多变量微积分、积分变分、Sobolev 空间直觉(即使作者没明说)。这种抽象度的提升对数学背景不足的读者会形成显著障碍——这是 Springer SUMS 系列的"定位"问题:作为"本科生数学",Ch 3 的严格度其实已经接近研究生水平(变分法通常是研究生课程)。但作为建模教材,它把"求最优"这一普遍数学问题统一处理,这是变分法在科学和工程中的核心价值

从建模哲学角度看,本章有几个可议之处:

  1. Hamilton 原理的"必要性"被回避。作者在 §3.3 直接定义 Lagrangian \(L = T - V\) 然后验证 Euler-Lagrange 给出 Newton 定律。但为什么 \(L\) 应该等于 \(T - V\)(而不是 \(T + V\)\(T \cdot V\))?这是一个物理原理,不能从数学推导。Hamilton 原理是一个公设——它的"正确性"由实验验证,而不是数学证明。建议在 §3.3 开头加一段"作为建模原理":Hamilton 原理是"经验性的"——给出正确预测 → 被接受为原理。

  2. Lagrangian 的"非唯一性"是数学结构的体现。给定一个 Euler-Lagrange 方程,可以构造无穷多 Lagrangian:\(L \to L + \frac{dF}{dt}\)\(F\) 是任意函数)给出相同的 Euler-Lagrange 方程。这种"gauge freedom"在现代物理中至关重要(如电磁场的 Lagrangian 在规范变换下不变)。本章完全没提这种自由度——读者会误以为 Lagrangian 是唯一的。

  3. §3.4 的"自然边界条件"启发式地推出。作者在 (3.4.1) 通过"边界项必须为零"推出 \(y'(1) = 0\)。但为什么必须是零?物理上对应垂直截断无通量边界;数学上对应自然变分问题(admissible 扰动 \(h(1)\) 是自由的)。如果作者用"对称性"或"动量守恒"等物理语言解释,会更"实在"。

  4. §3.6 等周问题 = Sturm-Liouville 特征值问题。这是一个关键的联系(习题 3.21 暗示),但作者没有展开。Sturm-Liouville 理论是 ODE 谱理论的核心,连接正交函数系(Fourier、Laguerre、Legendre)、自伴算子谱量子力学(氢原子谐振子)。等周问题可以严格地转化为 Sturm-Liouville:本章应该提一句"等周问题的 Lagrangian \(L - \lambda g\) 形式恰好是 Sturm-Liouville 算子的特征函数"。

  5. §3.8 的最优控制例(3.58+)结果很奇怪——最优控制让指数衰减变为指数增长,这看起来"违反物理"(能量输入应该让系统增长没错)。但作者没有讨论"这个解是否真实可实现"——例如控制 \(u(t) = Ae^{3t}\) 指数发散,这意味着需要无限能量输入,与目标 \(\min \int u^2 dt\) 矛盾。事实上真正的最优控制应该是 bang-bang 形式\(u\) 在极端值之间切换),不是连续函数。这暴露了 §3.8 的简化假设:作者假设 \(u\) 无约束且可任意取值。

  6. 缺失主题:Dirichlet 原理(Dirichlet principle)。Ch 3 处理的是有限维变分。无穷维变分的核心例子是Dirichlet 原理:在 \(u|_{\partial\Omega} = 0\) 下最小化 \(\int_\Omega |\nabla u|^2 dx\),变分给出 Laplace 方程 \(\Delta u = 0\)。这是位势理论的起点(引力势、电势、热势的数学模型)。Ch 3 没提——这是一个显著缺失。Ch 12 末尾的"Plateau 问题"(最小曲面)实际上是 Dirichlet 原理的几何版本,应该在 Ch 3 提一句。

  7. 关于"教科书化"的反思。本章的"教科书化"是数学严格度与物理直觉的折中。物理学家读,会觉得太抽象(没有几何图、缺少物理例);数学家读,会觉得太松散(没有变分问题的直接法、没有 Sobolev 空间)。但作为"建模方法论"教材——即告诉读者"如何用变分思想建模"——它达成了目标。每个例(最短路径、Hamilton 力学、等周、最优控制)都既是数学问题也是物理问题,让读者学会"先写出 Lagrangian,再推导方程"。这是 Ch 3 真正的价值。

  8. 与 Ch 6 扰动方法的衔接。Ch 6 的"扰动展开"本质上是变分法的高阶推广——把 Euler-Lagrange 方程的高阶项作为"扰动"。本书没有明说,但 Ch 3 提供的"变分四步法"在 Ch 6 仍然适用(扰动解本身就是变分问题的解)。这种内部统一是本书的结构优势。

重要参考文献

  • [X1] Joseph-Louis Lagrange, Mécanique Analytique, 1788. (Euler-Lagrange 方程的原始著作)
  • [X2] Anthony M. Bloch, Nonholonomic Mechanics and Control, Springer, 2003. (非完整约束系统力学与控制)
  • [X3] I.M. Gelfand and S.V. Fomin, Calculus of Variations, Prentice-Hall, 1963. (变分法的标准数学教材)
  • [X4] Richard Weinstock, Calculus of Variations with Applications to Physics and Engineering, Dover, 1974. (应用导向的变分法教材)
  • [X5] Cornelius Lanczos, The Variational Principles of Mechanics, Dover, 1970. (力学变分原理的经典)
  • [X6] Lev D. Landau and Evgeny M. Lifshitz, Mechanics, Pergamon, 1976. (分析力学的金标准)
  • [X7] Herbert Goldstein, Charles Poole, and John Safko, Classical Mechanics, Addison-Wesley, 2001. (Lagrangian & Hamiltonian 力学的标准教材)
  • [X8] Richard E. Bellman, Dynamic Programming, Princeton University Press, 1957. (动态规划与最优控制的奠基著作)
  • [X9] Lev S. Pontryagin, The Mathematical Theory of Optimal Processes, Interscience, 1962. (Pontryagin 最大值原理的原始著作)
  • [X10] Daniel Liberzon, Calculus of Variations and Optimal Control Theory, Princeton University Press, 2012. (变分法与最优控制理论的简明现代教材)