跳转至

Chapter 1: Introduction

Section 1 — Chapter Overview

本章是全书的开篇,旨在介绍不确定条件下的决策制定(Decision Making Under Uncertainty)这一核心问题及其在全书中所扮演的角色。作者Mykel J. Kochenderfer从计算科学的角度出发,系统性地探讨了如何设计能够应对复杂环境中不确定性的智能决策代理(decision agent)。

本章首先引入了一个通用框架:智能代理(agent)通过观察(observation)与其所处环境(environment)进行交互,并基于观察结果选择动作(action)以实现其既定目标。这一观察-动作循环(observe-act cycle)构成了几乎所有智能决策系统的基础架构。代理可以是物理实体(如人类或机器人),也可以是纯软件实现的决策支持系统。

在引入基本框架之后,本章通过两个具体应用案例——空中交通预警与避撞系统(TCAS)以及无人机持续监视系统——来说明不确定条件下决策制定的实际挑战。TCAS是一个已经成功部署数十年的机载避撞系统,它需要在雷达噪声、飞行员行为变异性以及飞机轨迹不确定性的共同作用下做出实时决策。无人机监视系统则涉及多代理协作、通信中继分配、燃料消耗随机性以及硬件故障处理等更为复杂的决策问题。

本章的另一个核心内容是对设计决策代理的五种主要方法进行概述:显式编程(Explicit Programming)、监督学习(Supervised Learning)、优化(Optimization)、规划(Planning)以及强化学习(Reinforcement Learning)。作者明确指出,本书的重点将放在规划与强化学习两种方法上,但也会涉及监督学习和优化中的相关技术。

在全书结构方面,本章概述了全书分为理论部分(第2-7章)和应用部分(第8-12章)两大部分,并简要介绍了各章节的主要内容与相互之间的逻辑关系。这种组织方式使读者能够在开篇就对全书的研究脉络与知识体系形成一个完整的图景。

本章作为绪论性质的内容,主要起到提纲挈领的作用,为后续各章的深入分析奠定概念基础。

Section 2 — Key Problems and Research Motivation

本章围绕以下几个核心科学问题展开:

问题一:如何在不确定条件下做出最优决策? 现实世界中的决策问题往往面临多重不确定性来源。观测不确定性(observational uncertainty)源于传感器噪声或感知器官的局限性;动态不确定性(dynamical uncertainty)来源于系统未来演化的随机性;模型不确定性(model uncertainty)则是由于决策者对环境 dynamics 缺乏精确了解所导致。在TCAS系统中,雷达对目标飞机的距离、方位和高度的测量均存在误差,且飞行员对避撞通告的实际响应存在显著变异性。如何在这些不确定性之下做出既安全又不会对正常空中交通造成不必要干扰的决策,是一个极具挑战性的问题。

问题二:如何平衡安全性和可操作性? 以TCAS为例,系统必须提供高度的安全保障(因为决策失误可能导致数百名乘客丧生),同时又必须保持可操作性——不能频繁发出虚警(false alert)而干扰正常飞行程序。这一安全与效率之间的平衡在许多实际决策系统中都是一个核心挑战。

问题三:如何设计可扩展的多代理协作决策系统? 无人机持续监视任务涉及多个飞行器之间的协作,包括任务区域分配、通信中继安排、燃料消耗管理以及故障应对等多个方面。当系统规模扩大时,决策问题的计算复杂度往往呈指数级增长,设计能够在实际时间约束内给出有效决策的算法成为一个重要研究课题。

问题四:不同设计方法的适用性边界在哪里? 显式编程、监督学习、优化、规划和强化学习五种方法各有其优势和局限性。理解在何种情况下应当采用何种方法,是设计实用决策系统的前提。显式编程在问题规模小、场景可穷举时有效;监督学习在有专家指导且能提供代表性训练样本时有优势;优化方法适用于策略空间较小且性能评估可通过仿真实现的情况;规划方法利用系统动力学模型引导搜索,适用于模型已知且需要处理状态不确定性的问题;强化学习则在模型未知、必须通过与环境交互来学习策略的情况下更为适用。

问题的更广泛意义: 不确定条件下的决策制定不仅存在于航空领域,在 wildfire management(野火管理)、disaster response(灾害响应)、自动驾驶、金融投资组合管理、医疗诊断等众多领域均具有核心重要性。研究这一问题的系统化方法论对于推动这些领域的技术进步具有重要价值。

Section 3 — Main Formulas and Derivations

本章作为引论性章节,并未深入推导具体公式,但引入了若干关键概念框架,这些框架在后续章节中将通过具体数学工具得到深化。

代理-环境交互的基本框架

在时刻 \(t\),代理与环境之间的交互可以表示为以下基本循环:

\[o_t \xrightarrow{\text{观察}} \text{Agent} \xrightarrow{\text{决策}} a_t \xrightarrow{\text{动作}} \text{Environment} \xrightarrow{\text{状态更新}} o_{t+1}\]

其中 \(o_t\) 表示时刻 \(t\) 的观察值,\(a_t\) 表示时刻 \(t\) 采取的动作。这一框架的数学表示将在后续章节(尤其是第4章Markov决策过程)中得到进一步的形式化。

TCAS系统中的不确定性建模

TCAS系统中的关键不确定量包括:

  • 距离测量:\(r = r_{\text{true}} + \epsilon_r\),其中 \(\epsilon_r\) 表示测量噪声
  • 方位角测量:\(\theta = \theta_{\text{true}} + \epsilon_\theta\)
  • 高度测量:\(h = h_{\text{true}} + \epsilon_h\)
  • 飞行员响应变异性:不同飞行员对同一避撞通告的响应可能不同,这种变异性在系统设计时必须加以考虑

决策策略空间

\(\pi\) 表示一个决策策略(policy),则策略空间可以表示为:

\[\Pi = \{\pi_1, \pi_2, \ldots, \pi_n\}\]

在优化方法中,设计者的目标是找到:

\[\pi^* = \arg\max_{\pi \in \Pi} J(\pi)\]

其中 \(J(\pi)\) 是衡量策略 \(\pi\) 性能的期望效用函数。在仿真环境中,\(J(\pi)\) 通常通过多次仿真取平均得到:

\[J(\pi) = \mathbb{E}\left[\sum_{t=0}^{T} \gamma^t R(s_t, a_t)\right]\]

其中 \(R(s_t, a_t)\) 是时刻 \(t\) 的奖励函数,\(\gamma \in [0, 1]\) 是折扣因子,\(T\) 可以是有限时间范围或无穷。

规划方法中的值函数

规划方法假设已知环境动力学模型 \(P(s_{t+1} | s_t, a_t)\),在此假设下,最优值函数满足Bellman方程:

\[V^*(s) = \max_a \mathbb{E}\left[R(s, a) + \gamma V^*(s')\right] = \max_a \sum_{s'} P(s'|s, a) \left[R(s, a) + \gamma V^*(s')\right]\]

相应的最优策略为:

\[\pi^*(s) = \arg\max_a \sum_{s'} P(s'|s, a) \left[R(s, a) + \gamma V^*(s')\right]\]

上述方程将在第4章中得到详细求解方法的讨论。

强化学习中的值函数估计

当环境动力学模型 \(P(s'|s, a)\) 未知时,必须通过与环境的交互来学习值函数。基本的时序差分(TD)更新规则为:

\[V(s_t) \leftarrow V(s_t) + \alpha \left[r_t + \gamma V(s_{t+1}) - V(s_t)\right]\]

其中 \(\alpha\) 是学习率(learning rate),括号内的量称为TD误差(TD error)。这一更新规则的直觉含义是:将当前值函数估计向"真实"值函数的方向调整一步,调整幅度由TD误差控制。

多代理协作决策

在多代理场景中(如无人机持续监视),问题通常可以建模为分布式决策过程。设 \(N\) 个代理的状态集合为 \(\{s_t^i\}_{i=1}^N\),联合动作 \(\mathbf{a}_t = (a_t^1, \ldots, a_t^N)\),联合奖励函数 \(R(\mathbf{s}_t, \mathbf{a}_t)\)。联合策略 \(\boldsymbol{\pi}(\mathbf{a} | \mathbf{s})\) 的优化面临维度灾难(curse of dimensionality),因为联合状态-动作空间的规模随代理数量指数增长。

Section 4 — Key Algorithms or Modeling Methods

本章作为绪论,重点在于介绍设计决策代理的方法论框架而非具体算法实现细节。以下梳理本章涉及的核心方法及其特征。

方法一:显式编程(Explicit Programming)

显式编程是最直接的决策代理设计方法。设计者为所有可能遇到的场景预定义决策规则。其优点是简单直观、决策过程可解释性强;缺点是难以穷举所有场景、无法处理未知情况、规则维护成本随问题复杂度急剧增长。在TCAS的早期设计阶段,显式规则方法曾被广泛使用,但随着场景复杂度提升,这种方法的局限性日益明显。

方法二:监督学习(Supervised Learning)

监督学习通过人类专家提供的标注数据进行训练,学习从观测到动作的映射关系。这一方法在计算机视觉、语音识别等领域取得了巨大成功。在决策代理设计中,这种方法又称行为克隆(behavioral cloning)。其核心假设是:专家在训练样本覆盖的各种情况下都知道最优动作。然而,当代理遇到训练分布之外的场景时,泛化性能无法保证——这正是行为克隆方法的根本性缺陷。

方法三:优化(Optimization)

优化方法将决策策略参数化,设计者定义策略空间和性能评估指标,优化算法在策略空间中搜索最优参数。这一方法的关键步骤包括:

  1. 策略参数化:将策略表示为 \(\pi_\theta(a|s)\),其中 \(\theta\) 是待优化参数
  2. 性能评估:通过批量仿真 \(J(\theta) = \mathbb{E}[R(\theta)]\)
  3. 参数搜索:使用梯度下降、进化策略或贝叶斯优化等方法更新 \(\theta\)

在TCAS系统设计中,优化方法可用于调整报警阈值、选择_resolution advisories_(避撞建议)的参数等。

方法四:规划(Planning)

规划方法利用已知的系统动力学模型来指导决策。相较于无模型的优化方法,规划的优势在于可以利用模型信息进行前瞻性决策(lookahead)。动态规划(Dynamic Programming)是规划方法的基础理论工具,通过递归分解复杂问题:

\[V(s_t) = \max_a \mathbb{E}\left[R(s_t, a_t) + \gamma V(s_{t+1})\right]\]

当状态空间连续或规模巨大时,精确求解动态规划方程变得不可行,需要引入函数近似(function approximation)、离线近似(offline approximation)和在线近似(online approximation)等技术。

方法五:强化学习(Reinforcement Learning)

强化学习的核心特征是"无模型"——代理在学习过程中同时探索环境(exploration)和利用已有知识(exploitation)。强化学习的独特挑战在于:动作的选择不仅影响即时奖励,还影响未来学习的机会(learning opportunity)。这一特征引出了探索-利用权衡(exploration-exploitation tradeoff)这一核心问题。

强化学习的算法框架可大致分为两类:

  • 基于值函数的方法(Value-based):学习值函数 \(V(s)\)\(Q(s, a)\),通过贪婪策略选择动作
  • 基于策略的方法(Policy-based):直接在策略空间中进行优化,学习策略参数 \(\theta\)

TCAS实例中的方法选择考量

TCAS系统对安全性有极高要求,且需要在毫秒级时间尺度内做出决策。这些约束使得纯机器学习方法(如强化学习)在此场景下目前尚不实用——因为在线学习方法缺乏安全性保证。TCAS的设计综合运用了显式规则、离线优化和确定性规划方法,通过大量仿真验证确保系统在各种极端情况下都能给出安全的决策。

Section 5 — Main Conclusions

本章的核心结论可以归纳为以下几点:

结论一:不确定性在决策制定中不可避免且必须严肃对待。 无论是传感器噪声、模型不精确还是人类行为的变异性,不确定性来源多样且对决策质量有显著影响。在TCAS这样的安全关键系统(safety-critical system)中,忽视任何一种不确定性都可能导致灾难性后果。

结论二:不存在"放之四海而皆准"的最优方法。 五种设计决策代理的方法各有其适用范围。显式编程在场景可穷举且规则固定的情况下简单有效;监督学习在有高质量专家数据时能快速构建可用系统;优化方法在策略空间可参数化且可仿真评估时具有优势;规划方法在环境模型已知且需要处理状态不确定性时表现出色;强化学习则在模型完全未知、必须通过交互学习的最具挑战性场景中具有独特价值。本书的重点——规划与强化学习——代表了处理复杂不确定决策问题的现代计算方法论的主流方向。

结论三:安全性和可操作性之间的平衡是实践中的核心挑战。 TCAS系统数十年的设计经验表明,一个成功的决策支持系统不仅需要在技术上正确,还必须被操作人员和社会所接受。这意味着系统设计不能仅仅追求理论上的最优,而必须在安全性、可靠性、可解释性和用户接受度之间找到实际可行的平衡点。

结论四:决策制定是一个跨学科问题。 本章涉及的决策理论融合了概率论、控制理论、计算机科学和运筹学等多个学科的工具和方法。这种跨学科特征也反映在本书的组织结构上——理论部分提供数学基础,应用部分展示实际问题的建模与求解方法,两者相互呼应。

Section 6 — Challenges and Open Questions

尽管本章并未深入展开,但作为绪论,它指出了全书将要面对的若干核心挑战:

挑战一:维度灾难(Curse of Dimensionality)。 当状态空间、动作空间或时间范围增大时,精确求解最优决策的计算复杂度通常呈指数增长。TCAS需要在三维空间(水平距离、垂直距离和时间)中对多个入侵飞机进行实时决策,而无人机监视系统则涉及多代理的高维联合状态空间。如何设计近似方法在计算效率和解的质量之间取得良好平衡,是贯穿全书的核心计算挑战。

挑战二:安全关键系统的验证与确认(Verification and Validation)。 TCAS系统已经部署了数十年,但每一次算法升级都需要经过严格的验证过程,以确保在所有可能场景下系统行为都符合安全要求。对于基于机器学习的决策系统,验证问题更加复杂——因为这类系统的行为难以通过传统测试方法完全覆盖。强化学习系统尤其如此,其策略可能在大规模部署前无法穷尽测试所有极端情况。

挑战三:部分可观测性(Partial Observability)。 本章假设代理可以观察到完整的状态,但在实际应用中(如无人机监视中的通信受限场景),代理往往只能获得关于环境状态的部分信息。如何在部分可观测条件下做出良好决策,是一个在理论上和实践上都具有相当难度的挑战。这正是第6章部分可观测Markov决策过程(POMDP)所要处理的问题。

挑战四:模型不完整性(Model Imperfection)。 规划方法假设已知环境动力学模型,但实际中模型往往是不完整的甚至可能是错误的。如何处理模型不确定性,在利用模型信息和避免因模型偏差导致错误决策之间取得平衡,是第5章模型不确定性要讨论的核心问题。

挑战五:人机协同中的信任校准(Trust Calibration)。 第12章将讨论的集成自动化与人类操作者问题涉及:如何在决策支持系统中建立操作者对系统的适当信任?如何设计人机交互界面使得系统的建议能够被正确理解和执行?这些问题的解决需要综合运用认知心理学、人因工程和人机交互等领域的研究成果。

开放问题: 在实际复杂系统中,多种不确定性来源往往同时存在且相互耦合,如何建立统一的理论框架来同时处理观测不确定性、动态不确定性、模型不确定性和通信不确定性,仍然是一个活跃的研究前沿。

Section 7 — Personal Reflections and Critical Analysis

关于作者写作风格和方法论的思考

从本章的叙述方式来看,Kochenderfer采用了从具体到抽象、从案例到理论的写作路径。这种"应用驱动"(application-driven)的写作风格在工程类教材中较为常见,其优势在于能够使抽象的理论概念与读者已有的经验建立联系,从而降低理解门槛。TCAS和无人机监视两个案例的选择也很好地覆盖了不同复杂度的决策场景——前者是单代理、安全关键的实时系统,后者是多代理、协作型的长时间尺度任务。

然而,这种组织方式也隐含了一个潜在风险:如果读者对书中选择的案例领域不够熟悉,可能会影响对相关方法论的理解。这一风险在应用部分各章中尤为突出——第10章和第11章分别深度讨论了TCAS和无人机监视问题,读者若跳过这些章节则可能无法完全理解前面理论章节的实际意义。建议读者在阅读理论章节时对相关应用章节保持开放态度,在学习完理论工具后主动查阅对应的应用章节以巩固理解。

关于五种设计方法的哲学思考

本章对五种方法的分类方式反映了决策系统设计领域的一个基本张力:设计的自动化程度与系统可解释性、安全可验证性之间的权衡。

显式编程代表完全由人类设计师掌控的极端:所有决策逻辑都是确定性的、可解释的,但扩展性差。监督学习将部分决策责任转移给算法,但仍然依赖人类专家提供"正确答案"。优化方法将设计问题转化为数学优化问题,在计算效率和最终性能之间寻求平衡,但解的质量受限于策略的参数化方式。规划方法则引入"前瞻"能力,使代理能够考虑动作的长期后果。强化学习代表了最高程度的自动化——代理通过与环境的交互自主发现最优策略,但这也意味着设计师对最终系统行为的控制力最弱。

从实践角度来看,这五种方法并非互斥的,而是可以互补使用的。例如,现代TCAS系统的设计中可能包含显式规则(用于处理最常见的场景)、优化方法(用于调整系统参数)和规划思想(用于处理复杂场景时的决策推理)。第12章关于人机集成的内容将进一步讨论混合系统的设计。

对本书整体架构的初步评估

本书采用"理论-应用"两部分的组织方式有其内在逻辑:理论部分建立数学基础,应用部分展示如何将理论工具应用于实际问题。然而,这种组织方式也存在一个值得注意的问题:理论章节和应用章节之间的对应关系可能不够显式——例如,第10章关于TCAS的讨论与第6章关于POMDP的理论之间究竟有何对应关系,可能需要读者自行建立联系。阅读本书时,建议读者主动建立这种跨章节的关联。

从深度上看,本章作为绪论,对五种方法的介绍相对均衡但较为浅显。对于已有相关背景的读者,本章的信息密度可能偏低;但对于初入此领域的读者,这种鸟瞰式的介绍有助于建立整体认知。

关于研究前沿的个人观察

作为读者,笔者认为本章所讨论的内容在当前人工智能研究中具有重要地位。强化学习和规划方法的融合(所谓"model-based RL")是当前最活跃的研究方向之一——利用学习到的环境模型来进行规划,可以同时兼顾样本效率和最终性能。此外,安全强化学习(safe reinforcement learning)作为一个专门研究如何在学习过程中保证安全性的子领域,与TCAS系统的设计哲学有密切关系,尽管两者处理安全约束的方式有所不同。

值得进一步关注的是,本书出版于2015年,书中部分内容可能未能反映2015年以来的最新进展,尤其是深度强化学习(deep reinforcement learning)在各应用领域取得的突破性进展(如AlphaGo、机器人控制等)。尽管如此,本书所建立的理论框架和基本概念仍然是理解这些后续发展的良好基础。


公式汇总

# 名称 形式 物理意义 类型
(1.1) 代理-环境交互循环 \(o_t \rightarrow a_t \rightarrow s_{t+1}\) 决策代理的基本工作流程 (T)
(1.2) 策略优化目标 \(\pi^* = \arg\max_{\pi \in \Pi} J(\pi)\) 寻找使期望累积奖励最大化的策略 (T)
(1.3) 性能泛函 \(J(\pi) = \mathbb{E}\left[\sum_{t=0}^{T} \gamma^t R(s_t, a_t)\right]\) 折扣累积奖励的期望值 (T)
(1.4) Bellman方程 \(V^*(s) = \max_a \sum_{s'} P(s'\|s,a)[R(s,a) + \gamma V^*(s')]\) 最优值函数满足的递归方程 (T)
(1.5) 时序差分更新 \(V(s_t) \leftarrow V(s_t) + \alpha[r_t + \gamma V(s_{t+1}) - V(s_t)]\) 强化学习中值函数的迭代更新 (T)
(1.6) 飞行员响应模型 \(r = r_{\text{true}} + \epsilon_r\) 含测量噪声的距离观测模型 (E)

注:(T)=理论推导,(E)=经验模型


术语表

英文术语 中文翻译 定义
Agent 代理/智能体 能基于环境观察做出动作的实体
Environment 环境 代理所处的外部系统,与代理交互并受代理动作影响
Observation (\(o_t\)) 观察 代理在时刻 \(t\) 获取的关于环境状态的信息
Action (\(a_t\)) 动作 代理在时刻 \(t\) 采取的决策行为
Policy (\(\pi\)) 策略 从观察到动作的映射关系
Uncertainty 不确定性 导致结果不可预测的各种因素
TCAS 空中交通预警与避撞系统 机载collision avoidance系统
Behavioral Cloning 行为克隆 通过监督学习从专家演示中学习策略
Curse of Dimensionality 维度灾难 问题复杂度随维度指数增长的现象
Exploration-Exploitation Tradeoff 探索-利用权衡 强化学习中平衡探索新动作与利用已知知识的挑战
Dynamic Programming 动态规划 利用最优子结构递归求解最优决策的方法
Partially Observable MDP (POMDP) 部分可观测马尔可夫决策过程 状态部分可观测条件下的序贯决策模型