第 3 章变分原理（Variational Principles）

作者

同 Ch 1、Ch 2，Thomas Witelski（Duke University，数学系）和 Mark Bowen（Waseda University，国际理工学中心）合著。本章是 Part I 的第 3 章——四章"建模方法"中最抽象、数学结构最深的一章。

本章在全书中的定位：从"已知方程"转到"从优化原理导出方程"。Ch 1（ODE）和 Ch 2（PDE）默认读者已接受"力 = $m\ddot x$"、"$\rho_t + \nabla \cdot (\rho v) = 0$"作为出发点；Ch 3 反向走：给定一个待优化的目标泛函（objective functional），推导出最优解满足的微分方程。这种"从泛函到方程"的方法论把力学（Fermat、Hamilton）、光学（Snell）、几何（等周问题）统一在同一框架下。

内容概述

本章回答两个核心问题：(i) 如何把"求一个最优函数"（如最速降线、最短路径、最小作用量）的物理/几何问题严格地转化为变分问题？ (ii) 变分问题的边界条件和约束条件如何影响 Euler-Lagrange 方程的形式？

章节结构： 1. §3.1 微积分回顾与泛函概念：从单变量 / 多变量微积分的极值条件 $\nabla f^* = 0$ 类比到"对函数求极值"——即泛函（functional） $J(y) = \int L(x, y, y') dx$ 的极值。 2. §3.2 经典 Euler-Lagrange 方程（最简形式 $L = L(x, y, y')$）：以"最短路径"为引例，演示四步法（扰动展开 → 一阶变分 → 边界条件 → 变分学基本引理），得到 Euler-Lagrange 方程 (3.21)： $$\frac{\partial L}{\partial y} - \frac{d}{dx}\frac{\partial L}{\partial y'} = 0$$ 3. §3.3 经典力学的变分表述：引入 Hamilton 最小作用量原理 $I = \int L dt$，$L = T - V$。证明 Euler-Lagrange 方程在 $L = \frac{1}{2}m\dot y^2 - V(y)$ 时等价于牛顿第二定律。扩展到多自由度（3.25a, b）和多粒子。 4. §3.4 边界条件的影响：从 Dirichlet 边界条件扩展到 (a) 自由边界（仅一端固定，要求自然边界条件 $y'(1) = 0$），(b) 可变端点（端点本身是未知量，要求横截条件 $y'(b^*) = -1/f'(b^*)$，即"垂直相交"）。 5. §3.5 约束优化的 Lagrange 乘子法（3.5.1 复习）。 6. §3.6 等周问题（isoperimetric）：约束是积分形式 $G = \int g \, dx = 0$（如固定周长最大面积）。乘子 $\lambda$ 是常数，Euler-Lagrange 方程的"目标项 + 约束项"形式不变。 7. §3.7 完整约束（holonomic）：约束是逐点形式 $g(x(t), y(t), t) = 0$（如滑道上的过山车）。乘子 $\lambda(t)$ 是时间函数。 8. §3.8 最优控制（optimal control）：约束是微分方程形式 $dx/dt = f(t, x, u)$（state equation）。目标是找控制函数 $u(t)$ 使系统从 $x(0) = x_0$ 到达 $x(T) = x_1$ 同时最小化代价 $\int L dt$。这是变分法最深刻的应用——导出共态方程（co-state equation, 3.56）和Pontryagin 原理的形式（3.55）。

前置知识：Ch 1 全部内容（ODE）、Ch 2 至少 §2.2 守恒律和 du Bois-Reymond 引理、多变量微积分（特别是 Lagrange 乘子的几何意义：约束曲面的法向与目标函数等高线的法向平行）。

核心方程与概念

1. 泛函与变分学基本引理（§3.1, eq. 3.5, 3.14）

泛函 $J(y) = \int_a^b L(x, y(x), y'(x)) dx$ 是"输入一个函数 $y(x)$、输出一个标量"的映射。

变分学基本引理（Fundamental Lemma, 3.14）：若 $\int_a^b g(x) h(x) dx = 0$ 对所有光滑 $h(x)$ 成立，则 $g(x) \equiv 0$。这与 Ch 2 的 du Bois-Reymond 引理 (2.11) 紧密相关——后者是取 $h$ 为子区间上的指示函数。

变分步骤（四步法，§3.2）： 1. 引入扰动 $\tilde y = y^* + \varepsilon h(x)$ 2. Taylor 展开 $J(\tilde y) = J^* + \varepsilon (\text{一阶变分}) + O(\varepsilon^2)$ 3. 一阶变分通过分部积分化为 $\int [\text{Euler-Lagrange 表达式}] \cdot h \, dx + \text{边界项}$ 4. 应用基本引理 + 边界条件 → Euler-Lagrange 方程

2. Euler-Lagrange 方程（§3.2, eq. 3.21）

对 $J(y) = \int_a^b L(x, y, y') dx$ 在固定 Dirichlet 边界 $y(a) = c, y(b) = d$ 下取极值：

\[\boxed{\frac{\partial L}{\partial y} - \frac{d}{dx}\frac{\partial L}{\partial y'} = 0} \tag{3.21}\]

这是变分法的"中心方程"。

最短路径例子（3.10a, 3.16）：$L = \sqrt{1 + (y')^2}$，代入 (3.21) 给出 $\frac{d}{dx}\left[\frac{y'}{\sqrt{1 + (y')^2}}\right] = 0$，积分得 $y = bx$（直线）。

最速降线（brachistochrone, eq. 3.6, 习题 3.8）：在重力作用下从 $(0, 1)$ 到 $(1, 0)$ 找最速曲线，是历史上第一个变分问题（1696 Johann Bernoulli）。答案是旋轮线（cycloid）——变分法的诞生问题。

3. Hamilton 原理与经典力学（§3.3, eq. 3.22–3.23）

将 Euler-Lagrange 方程（3.21）变量重标 $x \to t, y \to q(t)$（位置），则 $L(t, q, \dot q)$ 是 Lagrangian。作用量（action）$I = \int L dt$ 取得驻值时：

\[\frac{\partial L}{\partial q} - \frac{d}{dt}\frac{\partial L}{\partial \dot q} = 0 \tag{3.22}\]

若 $L = T - V$（动能减势能，3.23），则 (3.22) 等价于 $\frac{d}{dt}(m\dot q) = -\frac{\partial V}{\partial q}$（牛顿第二定律）。

多自由度（3.25a, b）：对 $L(t, q_1, \ldots, q_n, \dot q_1, \ldots, \dot q_n)$，每个 $q_i$ 都有独立的 Euler-Lagrange 方程。

核心洞察：从变分原理得到的运动方程比牛顿第二定律更普适——它直接推广到 (a) 曲线坐标（非惯性系），(b) 多个耦合约束（见 §3.7），(c) 量子场论（路径积分），(d) 相对论性力学（Lorentz 不变的 action）。

4. 边界条件的三种类型（§3.4）

类型	设置	自然边界条件
Dirichlet	$y(a) = c, y(b) = d$ 固定	无（边界由问题指定）
自由边界（§3.4.1）	仅 $y(0) = 0$ 固定	$y'(1) = 0$（来自边界项为零的要求）
可变端点（§3.4.2）	端点 $(b, f(b))$ 在曲线上	横截条件 $y'(b^) = -1/f'(b^)$：解与曲线垂直相交（3.30）

5. 约束优化的三类问题（§3.5–3.8）

统一框架：构造增广 Lagrange 量 $\mathcal{L} = L - \lambda g$，对所有未知量取一阶变分为零。

约束类型	$g$ 形式	乘子	例子
等周（§3.6, eq. 3.36–3.40）	积分 $\int g \, dx = 0$	常数 $\lambda$	给定周长最大面积（解是圆弧，3.40）
完整/几何（§3.7, 3.41–3.42）	逐点 $g(x, y, t) = 0$	时变 $\lambda(t)$	滑道上的过山车
最优控制（§3.8, 3.44–3.57）	微分方程 $dx/dt = f(t, x, u)$	时变 $\lambda(t)$（共态）	最短时间到达 / 最小能量控制

6. Pontryagin 最大值原理（§3.8, eq. 3.53–3.57）

Hamiltonian 定义（3.53, 3.54）： $$H \equiv L - x' \frac{\partial \mathcal{L}}{\partial x'} = L + \lambda f$$

核心方程组（3.55–3.57）： - 状态方程：$\frac{\partial \mathcal{L}}{\partial \lambda} = 0 \Rightarrow \frac{dx}{dt} = f(t, x, u)$ - 共态方程：$\frac{\partial L}{\partial x} - \frac{d}{dt}\frac{\partial L}{\partial x'} = 0 \Rightarrow \frac{d\lambda}{dt} = -\frac{\partial L}{\partial x} - \lambda \frac{\partial f}{\partial x}$（3.56） - 控制最优条件：$\frac{\partial L}{\partial u} + \lambda \frac{\partial f}{\partial u} = 0$（3.57，$u$ 无约束时） - Hamiltonian 边界条件：$H(T^*) = 0$；若 $L$ 不显式依赖于 $t$（自治系统），则 $H \equiv 0$（3.55）

例（§3.8 末尾, 3.58+）：$dx/dt = -3x + u$，$x(0) = 2$，$x(T) = 5$，最小化 $J = \frac{1}{2}\int_0^T u^2 dt$。解：$u^*(t) = Ae^{3t}$，$x^*(t) = Be^{-3t} + \frac{A}{6}e^{3t}$，由 $H = 3AB = 0$ 给出 $B = 0$（$A = 0$ 退化），故 $x^*(t) = 2e^{3t}$，$T^* = \frac{1}{3}\ln(5/2)$。最优控制让原本指数衰减的无控系统指数增长到目标——这是控制理论的"魔术"。

关键结论

Euler-Lagrange 方程 (3.21) 是变分法的不动点：无论 $L$ 是什么具体形式（动能-势能差、弧长、面积、作用量），极值条件都归结到 (3.21)。这让变分法成为"求最优"的通用工具。Ch 12 末尾的"Plateau 边界"问题和 Ch 8 末尾的"BBM 孤子"问题都会回到此方程。
Hamilton 最小作用量原理（§3.3）与 Newton 第二定律等价，但更普适：
对 $L = T - V$，Euler-Lagrange 方程 (3.22) 严格等于 Newton 第二定律；
但在曲线坐标（如球坐标）、多体耦合（如 N-body 引力）、相对论性情形下，$L$ 的形式自然给出 $\nabla$ 算子从直角坐标到曲线坐标的转换，比直接写 Newton 第二定律（需要计算 Christoffel 符号）简单得多。
这是分析力学（analytical mechanics）的核心价值：用同一个变分框架统一各种力学。
边界条件决定解的"资格"：Euler-Lagrange 方程 (3.21) 只是必要条件，具体解由边界条件选定。不同边界条件（Dirichlet / 自由 / 可变端点）给出完全不同的解——例：自由边界问题 (3.4.1) 的最短路径是 $y \equiv 0$（沿 $x$ 轴到 $x=1$），而 Dirichlet 问题 (3.2.1) 是 $y = bx$（直接连接）。
等周问题的解通常是圆弧（§3.6 末尾, Fig. 3.4）：最大化面积 + 固定周长（"鼓膜问题"）的解是弧形圆，等价于二维气泡的形状方程（Young-Laplace 方程的零压差极限）。这是几何、物理、化学（表面张力）的共同起源。
完整约束（holonomic）vs. 非完整（non-holonomic）：§3.7 的约束 $g(q, t) = 0$ 称为完整约束——可以通过坐标变换消去一个自由度；非完整约束（如轮子"只能前进不能侧移"的速度约束 $dq_1/dq_2 = \tan\theta$）不可积，Euler-Lagrange 方程需要 Lagrange-d'Alembert 原理处理。本章没有涉及非完整约束——这是 Ch 3 的一个重要限制。
Pontryagin 最大值原理（§3.8）是变分法对带约束 ODE 的推广：
状态方程 $\dot x = f(t, x, u)$ 是约束
目标泛函 $\int L dt$ 是待优化的目标
共态 $\lambda(t)$ 是把约束"嵌入"目标泛函的 Lagrange 乘子
Hamiltonian $H = L + \lambda f$ 把状态和共态"耦合"——这正是 Hamilton 力学的核心数据结构
最优控制理论 → Hamilton-Jacobi-Bellman 方程 → 动态规划，是现代控制论（Kalman, 1960s）、金融数学（Black-Scholes, 1970s）、机器学习（强化学习, 2010s）的共同数学基础。
第二变分（second variation）决定极值的"类型"：一阶变分为零给出 Euler-Lagrange 方程（必要条件），二阶变分的符号决定是极大、极小还是鞍点。作者在脚注 3 中提到这一点，但没有展开。习题 3.2 留给读者"二阶导数判别法"作为练习。

挑战和开放性问题

变分问题的"存在性"：本书默认最优解 $y^*(x)$ 存在，然后推导它满足的方程。严格的存在性需要直接法（direct methods）——在某个函数空间（如 Sobolev 空间 $H^1$）取极小化序列并证明其收敛到极小元。这是 Hilbert 第 20 问题（1900）的内容，由 Tonelli（1920s）解决。本章完全跳过这一严格化。
第二变分判别法的"判别"强度有限：当二阶变分 $= 0$（即退化情形），需要更高阶变分才能判别极值类型。这在 Morse 理论（Morse 1934）中得到系统化处理：临界点 = 拓扑信息（如流形上的闭测地线）。本章没有触及 Morse 理论。
§3.6 末尾的"S > π/2 时解不存在"：作者在 isoperimetric 问题中指出"当约束的弧长 $S$ 太大时，(3.40) 不再 valid"——这暗示函数图 $y = y(x)$ 表示形式不足，需要参数化曲线 $(x(t), y(t))$。严格的等周问题（最大化 $\int y dx$ subject to $\int \sqrt{1 + (y')^2} dx = S$）解的存在性需要重参数化不变性——这一几何不变性恰恰是 Plateau 问题（§3.7 末尾、Ch 12 末尾）的研究起点。
§3.7 的"完整约束"是机械力学的特例：物理上，"完整"指约束可积（即 $g(q, t) = 0$ 可作为坐标约束处理）。非完整约束（如汽车只能在地面上滚动不能侧滑）需要虚功原理 + Lagrange-d'Alembert 而非简单乘子。Ch 3 没有涉及。这是非完整力学的入门（参见 Bloch [X2]）。
§3.8 的最优控制理论是"小步长、精确控制"假设：作者在 §3.8 隐含假设 $u(t)$ 是无约束的连续函数。实际工程中 $u$ 常有约束（如油门 $\in [0, 1]$，机械臂转角 $\in [-\pi/2, \pi/2]$），需要Pontryagin 最大值原理（maximum principle）的真正形式——$H(t, x^*, u^*, \lambda^*) = \max_u H(t, x^*, u, \lambda^*)$——在 $\partial H/\partial u = 0$（内点解）和"控制取边界值"（bang-bang 控制）之间切换。本章的 (3.57) 实际上只对应内点解情形。
Euler-Lagrange 方程的奇异性：若 $L_{y' y'} = 0$（如 $L = (y')^{1/3}$），则 (3.21) 退化，需要Ostrogradsky 不稳定性分析。这是 Ch 6（奇异扰动）的前置知识。
从有限维到无穷维变分：Ch 3 全部是有限维变分（函数 $y(x)$ 是有限维参数化）。无穷维变分（$y$ 本身是函数）需要函数空间分析（Frechet 导数、Sobolev 空间、变分问题的直接法）。Ch 8-9 的 KdV 孤子稳定性、Ch 12 的 Plateau 曲面（最小曲面）都是无穷维变分问题。
Lagrangian 场论（field theory）的多维推广：Euler-Lagrange 方程 (3.21) 是 1D 情形，对多维 Lagrangian 密度 $\mathcal{L}(t, \mathbf{x}, u, \nabla u)$（$u = u(\mathbf{x}, t)$ 是场），变分给出 $$\frac{\partial \mathcal{L}}{\partial u} - \nabla \cdot \frac{\partial \mathcal{L}}{\partial \nabla u} = 0$$ 这是经典场论和量子场论的核心方程（Dirac 方程、Klein-Gordon 方程、Yang-Mills 方程都从对应的 $\mathcal{L}$ 导出）。本书没有专题处理——习题 3.1 末尾提"multiple integrals"作为延伸。

个人反思与批判性分析

本章在数学深度上明显高于 Ch 1-2：从"对函数求极值"到 Euler-Lagrange 方程的推导，每一步都涉及多变量微积分、积分变分、Sobolev 空间直觉（即使作者没明说）。这种抽象度的提升对数学背景不足的读者会形成显著障碍——这是 Springer SUMS 系列的"定位"问题：作为"本科生数学"，Ch 3 的严格度其实已经接近研究生水平（变分法通常是研究生课程）。但作为建模教材，它把"求最优"这一普遍数学问题统一处理，这是变分法在科学和工程中的核心价值。

从建模哲学角度看，本章有几个可议之处：

Hamilton 原理的"必要性"被回避。作者在 §3.3 直接定义 Lagrangian $L = T - V$ 然后验证 Euler-Lagrange 给出 Newton 定律。但为什么 $L$ 应该等于 $T - V$（而不是 $T + V$ 或 $T \cdot V$）？这是一个物理原理，不能从数学推导。Hamilton 原理是一个公设——它的"正确性"由实验验证，而不是数学证明。建议在 §3.3 开头加一段"作为建模原理"：Hamilton 原理是"经验性的"——给出正确预测 → 被接受为原理。
Lagrangian 的"非唯一性"是数学结构的体现。给定一个 Euler-Lagrange 方程，可以构造无穷多 Lagrangian：$L \to L + \frac{dF}{dt}$（$F$ 是任意函数）给出相同的 Euler-Lagrange 方程。这种"gauge freedom"在现代物理中至关重要（如电磁场的 Lagrangian 在规范变换下不变）。本章完全没提这种自由度——读者会误以为 Lagrangian 是唯一的。
§3.4 的"自然边界条件"启发式地推出。作者在 (3.4.1) 通过"边界项必须为零"推出 $y'(1) = 0$。但为什么必须是零？物理上对应垂直截断或无通量边界；数学上对应自然变分问题（admissible 扰动 $h(1)$ 是自由的）。如果作者用"对称性"或"动量守恒"等物理语言解释，会更"实在"。
§3.6 等周问题 = Sturm-Liouville 特征值问题。这是一个关键的联系（习题 3.21 暗示），但作者没有展开。Sturm-Liouville 理论是 ODE 谱理论的核心，连接正交函数系（Fourier、Laguerre、Legendre）、自伴算子谱、量子力学（氢原子谐振子）。等周问题可以严格地转化为 Sturm-Liouville：本章应该提一句"等周问题的 Lagrangian $L - \lambda g$ 形式恰好是 Sturm-Liouville 算子的特征函数"。
§3.8 的最优控制例（3.58+）结果很奇怪——最优控制让指数衰减变为指数增长，这看起来"违反物理"（能量输入应该让系统增长没错）。但作者没有讨论"这个解是否真实可实现"——例如控制 $u(t) = Ae^{3t}$ 指数发散，这意味着需要无限能量输入，与目标 $\min \int u^2 dt$ 矛盾。事实上真正的最优控制应该是 bang-bang 形式（$u$ 在极端值之间切换），不是连续函数。这暴露了 §3.8 的简化假设：作者假设 $u$ 无约束且可任意取值。
缺失主题：Dirichlet 原理（Dirichlet principle）。Ch 3 处理的是有限维变分。无穷维变分的核心例子是Dirichlet 原理：在 $u|_{\partial\Omega} = 0$ 下最小化 $\int_\Omega |\nabla u|^2 dx$，变分给出 Laplace 方程 $\Delta u = 0$。这是位势理论的起点（引力势、电势、热势的数学模型）。Ch 3 没提——这是一个显著缺失。Ch 12 末尾的"Plateau 问题"（最小曲面）实际上是 Dirichlet 原理的几何版本，应该在 Ch 3 提一句。
关于"教科书化"的反思。本章的"教科书化"是数学严格度与物理直觉的折中。物理学家读，会觉得太抽象（没有几何图、缺少物理例）；数学家读，会觉得太松散（没有变分问题的直接法、没有 Sobolev 空间）。但作为"建模方法论"教材——即告诉读者"如何用变分思想建模"——它达成了目标。每个例（最短路径、Hamilton 力学、等周、最优控制）都既是数学问题也是物理问题，让读者学会"先写出 Lagrangian，再推导方程"。这是 Ch 3 真正的价值。
与 Ch 6 扰动方法的衔接。Ch 6 的"扰动展开"本质上是变分法的高阶推广——把 Euler-Lagrange 方程的高阶项作为"扰动"。本书没有明说，但 Ch 3 提供的"变分四步法"在 Ch 6 仍然适用（扰动解本身就是变分问题的解）。这种内部统一是本书的结构优势。

重要参考文献

[X1] Joseph-Louis Lagrange, Mécanique Analytique, 1788. (Euler-Lagrange 方程的原始著作)
[X2] Anthony M. Bloch, Nonholonomic Mechanics and Control, Springer, 2003. (非完整约束系统力学与控制)
[X3] I.M. Gelfand and S.V. Fomin, Calculus of Variations, Prentice-Hall, 1963. (变分法的标准数学教材)
[X4] Richard Weinstock, Calculus of Variations with Applications to Physics and Engineering, Dover, 1974. (应用导向的变分法教材)
[X5] Cornelius Lanczos, The Variational Principles of Mechanics, Dover, 1970. (力学变分原理的经典)
[X6] Lev D. Landau and Evgeny M. Lifshitz, Mechanics, Pergamon, 1976. (分析力学的金标准)
[X7] Herbert Goldstein, Charles Poole, and John Safko, Classical Mechanics, Addison-Wesley, 2001. (Lagrangian & Hamiltonian 力学的标准教材)
[X8] Richard E. Bellman, Dynamic Programming, Princeton University Press, 1957. (动态规划与最优控制的奠基著作)
[X9] Lev S. Pontryagin, The Mathematical Theory of Optimal Processes, Interscience, 1962. (Pontryagin 最大值原理的原始著作)
[X10] Daniel Liberzon, Calculus of Variations and Optimal Control Theory, Princeton University Press, 2012. (变分法与最优控制理论的简明现代教材)

类型	设置	自然边界条件
Dirichlet	\(y(a) = c, y(b) = d\) 固定	无（边界由问题指定）
自由边界（§3.4.1）	仅 \(y(0) = 0\) 固定	\(y'(1) = 0\)（来自边界项为零的要求）
可变端点（§3.4.2）	端点 \((b, f(b))\) 在曲线上	横截条件 \(y'(b^) = -1/f'(b^)\)：解与曲线垂直相交（3.30）

约束类型	\(g\) 形式	乘子	例子
等周（§3.6, eq. 3.36–3.40）	积分 \(\int g \, dx = 0\)	常数 \(\lambda\)	给定周长最大面积（解是圆弧，3.40）
完整/几何（§3.7, 3.41–3.42）	逐点 \(g(x, y, t) = 0\)	时变 \(\lambda(t)\)	滑道上的过山车
最优控制（§3.8, 3.44–3.57）	微分方程 \(dx/dt = f(t, x, u)\)	时变 \(\lambda(t)\)（共态）	最短时间到达 / 最小能量控制

第 3 章 变分原理（Variational Principles）

作者