第十章：优化机载避撞系统

第一章章节概述

本章探讨了从传统的TCAS（Traffic Alert and Collision Avoidance System， traffic alert and collision avoidance system， traffic alert and collision avoidance system）向新一代ACAS X（Airborne Collision Avoidance System X，机载避撞系统X）的演进过程，重点介绍了如何利用动态规划（dynamic programming）优化机载避撞决策逻辑。研究的核心问题在于：如何在存在传感器误差和飞行路径不确定性的情况下，设计既能可靠防止空中碰撞又不会产生过多虚假警告的避撞系统。

本章首先回顾了TCAS系统的发展历程、技术特点及其局限性。TCAS自1980年代开始研发，基于规则的方法存在固有的脆弱性，无法适应飞行员行为的全部变化范围。2002年德国Überlingen碰撞事故充分暴露了TCAS设计的缺陷——当一方飞行员不遵循TCAS指令时，系统无法识别并进行相应调整。

针对这些问题，研究者提出了将碰撞规避问题建模为部分可观测马尔可夫决策过程（POMDP），并通过动态规划求解最优策略的全新框架。这标志着碰撞规避系统设计从启发式规则驱动向数据驱动优化的根本性转变。ACAS X在监视和决策逻辑两个方面均实现了重大改进，支持GPS数据和多种传感器模式，并能将决策逻辑表示为经过优化的数值查找表。

前置知识要求：读者应熟悉马尔可夫决策过程（MDP）、贝叶斯滤波、动态规划的基本概念，以及航空交通管制的基础知识。

第二章关键问题与研究动机

2.1 核心科学问题

本章围绕以下关键科学问题展开：

如何在不确定环境下进行最优避撞决策：传感器误差、飞行员响应延迟和入侵飞机未来轨迹的不确定性使得碰撞风险评估变得复杂。传统的确定性模型无法充分捕捉这些不确定性因素。
如何平衡安全性与运营效率：碰撞规避系统需要在最大化安全裕度和最小化非必要警告之间取得平衡。过多虚假警报会导致飞行员对系统失去信任，而警告不足则可能引发灾难性后果。
如何实现多威胁场景下的协同决策：当多架入侵飞机同时接近时，系统需要综合考虑各方因素生成统一的避撞指令。
如何支持新空域用户类别：随着通用航空和无人机的普及，碰撞规避系统需要适应不同的飞机性能和传感器配置。

2.2 现有系统的缺陷

TCAS系统的主要局限性体现在以下几个方面：

规则基础的脆弱性：TCAS逻辑以大量启发式规则的形式嵌入，缺乏对不确定性的系统建模。2002年Überlingen事故中，当一方飞机违反TCAS指令时，系统未能识别这一情况并调整另一方的避撞策略。
仅提供垂直机动建议：TCAS仅发出垂直速度范围的指令，不支持水平机动（如航向改变），这限制了其在低性能飞机上的应用。
Beacon监视的局限性：传统TCAS依赖广播式询问（Mode S/C），无法有效检测无应答器飞机。
高密度空域的告警过度：随着新一代空管系统基于卫星导航允许飞机更密集地飞行，TCAS的告警频率将超出实际可用范围。

2.3 研究动机与意义

开发ACAS X的动机源于多方面的实际需求：首先，现有空域的持续拥挤要求更高效的碰撞保护机制；其次，无人机融入民用空域需要能适应不同平台能力的通用解决方案；最后，TCAS的维护和更新成本高昂，需要从根本上简化开发流程。

第三章主要公式与推导

3.1 状态空间定义

ACAS X的POMDP formulation采用六个状态变量：

$h$：入侵飞机相对于本机的高度（单位：ft）
$\dot{h}_0$：本机的垂直速度（单位：ft/min）
$\dot{h}_1$：入侵飞机的垂直速度（单位：ft/min）
$\tau$：到潜在碰撞的时间（单位：s）
$s_{adv}$：当前发出的咨询指令
$s_{res}$：飞行员是否正在响应咨询

3.2 飞行员响应模型

飞行员响应概率由以下Bernoulli过程建模：

\[P(s_{res}' = \text{true} | s_{adv}, s_{res}, a) = \begin{cases} 1 & \text{if } a = \text{COC} \\ 1 & \text{if } s_{res} = \text{true} \land s_{adv} = a \\ \frac{1}{1+5} & \text{if } s_{adv} = \text{COC} \land a \neq \text{COC} \\ \frac{1}{1+5} & \text{if } s_{adv} \text{ 和 } a \text{ 方向相反} \\ \frac{1}{1+3} & \text{if } s_{adv} \text{ 和 } a \text{ 方向相同}} \end{cases}\]

由于响应由Bernoulli过程决定，响应延迟服从几何分布。若每步响应概率为 $\frac{1}{1+k}$，则平均响应时间为 $k$ 秒。由此可得：

本机始终响应COC（Clear of Conflict）
一旦响应，飞行员在咨询持续期间持续响应
初始咨询的平均响应延迟为5秒
反转咨询的平均响应延迟为5秒
加强或减弱咨询的平均响应延迟为3秒

3.3 动力学更新方程

给定动作 $a$、响应状态 $s_{res}'$、本机加速度 $\ddot{h}_0$ 和入侵飞机加速度 $\ddot{h}_1$，状态按以下方式更新：

\[\begin{bmatrix} h \\ \dot{h}_0 \\ \dot{h}_1 \\ \tau \\ s_{adv} \\ s_{res} \end{bmatrix}' = \begin{bmatrix} h + \dot{h}_1(\Delta t) + \frac{1}{2}\ddot{h}_1(\Delta t)^2 - \dot{h}_0(\Delta t) - \frac{1}{2}\ddot{h}_0(\Delta t)^2 \\ \dot{h}_0 + \ddot{h}_0(\Delta t) \\ \dot{h}_1 + \ddot{h}_1(\Delta t) \\ \tau - 1 \\ a \\ s_{res}' \end{bmatrix}\]

其中 $\Delta t = 1$ 秒。本机加速度模型为：

若飞行员未响应：$\ddot{h}_0 \sim \mathcal{N}(0, 3^2)$ ft/s²
若飞行员响应：$\ddot{h}_0$ 使垂直速度趋近期望范围，均值8.33 ft/s²，标准差1 ft/s²
若咨询被反转或加强：均值提升至10.7 ft/s²

入侵飞机加速度模型：$\ddot{h}_1 \sim \mathcal{N}(0, 3^2)$ ft/s²

3.4 奖励函数

奖励函数捕获安全和运营考量，由表10.2的事件奖励组成。所有事件奖励均为负值（除COC外），包括：

碰撞事件（$\tau \leq 0$ 且 $|h| \leq 175$ ft）：$-1$
初始咨询：$-1$
反转：$-8 \times 10^{-3}$
加强：$-5 \times 10^{-3}$
减弱：$-1 \times 10^{-3}$
corrective咨询：$-0.1$ 或 $-3 \times 10^{-2}$
preventive咨询：$-1 \times 10^{-2}$
COC：$1 \times 10^{-9}$

3.5 Bellman方程

在完全可观测条件下的值函数 $U^*$ 满足以下Bellman方程：

\[U^*(s) = \max_a \left[ R(s, a) + \gamma \int T(s'|s, a)U^*(s')ds' \right]\]

采用sigma-point采样将连续分布离散化后，方程转化为：

\[U^*(s) = \max_a \left[ R(s, a) + \gamma \sum_{s'} T(s'|s, a)U^*(s') \right]\]

3.6 信念状态近似

在部分可观测条件下，系统估计信念分布 $b$ 并使用QMDP方法选择动作：

\[\pi^*(b) = \arg\max_a \int b(s)Q^*(s, a)ds\]

采用加权样本近似：

\[\pi^*(b) = \arg\max_a \sum_i w^{(i)}Q^*(s^{(i)}, a)\]

信念状态可分解为：

\[b(h, \dot{h}_0, \dot{h}_1, \tau, s_{adv}, s_{res}) = b(h, \dot{h}_0, \dot{h}_1) \cdot b(\tau) \cdot b(s_{adv}, s_{res})\]

第四章关键算法与建模方法

4.1 值迭代算法

ACAS X使用局部近似值迭代算法（local approximation value iteration），结合多线性插值（multilinear interpolation）进行网格离散化。具体离散化参数为：

高度 $h$：33个采样点，范围$\pm 4000$ ft，0 ft附近加密
本机垂直速度 $\dot{h}_0$：25个采样点，范围$\pm 10000$ ft/min，0 ft/min附近加密
入侵飞机垂直速度 $\dot{h}_1$：25个采样点，范围$\pm 10000$ ft/min
时间到碰撞 $\tau$：1秒间隔，0到40秒

由于问题结构的特殊性，仅需一次Gauss-Seidel值迭代扫掠即可得到最优值函数。通过按$\tau$值递增顺序扫掠状态，可以利用$\tau=k$的状态仅依赖于$\tau=k-1$状态的性质。

4.2 Sigma-Point采样

为解决连续加速度分布的积分问题，采用sigma-point采样方法生成加权的 $\ddot{h}_0$ 和 $\ddot{h}_1$ 样本点，将积分转化为有限和。

4.3 状态估计

采用改进的Kalman滤波框架处理传感器误差。滤波器输出加权状态样本，而非单一估计值。针对不同传感器模式（25 ft和100 ft量化），分别设计了相应的滤波算法。

时间到碰撞分布通过离线查表计算。设 $D_k(s)$ 表示另一架飞机在$k$秒内到达固定横向距离的概率，递推关系为：

\[D_k(s) = \sum_{s'} T(s, s')D_{k-1}(s')\]

利用对称性，水平状态空间仅需三个变量描述。

4.4 在线成本机制

由于查找表仅包含六个变量，其他运行条件（如离地高度）需通过在线成本在线调整。在线成本的引入避免了对查找表的扩展，包括：

高度抑制：防止在低空发布咨询
咨询切换惩罚：限制咨询的频繁切换
初始化抑制：系统启动后数秒内禁止咨询
多重反转防止：除非协调需要，禁止多次反转
兼容性检查：确保与另一飞机的咨询兼容
强制穿越咨询：当入侵飞机发布需穿越本机高度的咨询时

4.5 多威胁融合

与TCAS对每架入侵飞机独立确定最优咨询再通过规则组合不同，ACAS X将不同入侵飞机相关的状态-动作成本进行融合（fusion），可扩展至大量同时威胁。

4.6 流量告警（TA）生成

TA生成基于"无告警"动作的值。当该值低于某一阈值时发布TA。采用三个阈值防止震颤（chatter）：

开启阈值：当无告警值低于此值时，允许发布TA
挤压阈值：当咨询值低于无告警值减去该阈值时，抑制不必要的TA
关闭阈值：当TA已持续至少8秒且无告警值低于此值时，关闭TA

第五章主要结论

5.1 安全性提升

基于393,077个真实雷达记录的遭遇模型进行仿真，ACAS X的风险比率（collision risk ratio）小于TCAS的40%。该结果假设标准的高度计偏差模型、主动监视模型和飞行员响应模型。风险比率定义为有/无碰撞规避系统时近距碰撞（NMAC：500 ft水平距离且100 ft垂直距离以内）概率的比值。

5.2 运营性能改善

总体告警率降低30%（相对于TCAS）
反转次数减少22%
对于相同遭遇几何，ACAS X的告警区域显著小于TCAS
除"加强至增加爬升/下降"的过渡外，所有告警均晚于TCAS发出

5.3 系统架构优势

模块化监视架构：从TCAS的仅Beacon监视转变为即插即用架构，支持GPS数据和多种传感器模式
优化的决策表示：将大部分逻辑表示为经过数值优化的查找表，而非大量手工编写的规则
支持新用户类别：为小型通用航空飞机和无人机提供碰撞保护
降低开发和维护成本：基于优化的开发流程简化了系统更新

5.4 飞行测试验证

2013年8月的首次飞行测试在FAA William J. Hughes技术中心进行。原型机在Convair 580上成功运行超过21小时，完成11次飞行，未发生硬件或软件故障。测试涵盖127个测试卡片，涉及各种遭遇场景，包括流量告警、各类解决咨询以及与legacy TCAS的协调机制。

第六章挑战与开放问题

6.1 表格压缩与内存约束

超过2600万个顶点的查找表对机载设备的内存容量构成挑战。研究正在探索在有限内存条件下有效压缩表格的算法，同时不影响实时查找的时序性能。

6.2 多威胁处理能力

当前原型在每个处理周期仅处理四架最近的入侵飞机。研究正在探索在每个周期内纳入更多入侵飞机的方法。

6.3 欧洲空域的适用性

已知欧洲空域的遭遇分布与美国不同（因空管程序差异），需要针对欧洲空域进行安全分析。

6.4 特定场景的性能问题

测试发现某些场景下仍存在需要改进之处：

500 ft垂直间隔的特定平飞遭遇中出现了不良告警
非失误平行进近场景中出现了非预期告警
某些情况下未发出期望的反转咨询

6.5 验证与确认

对于安全关键系统，如何验证基于优化的设计满足认证要求仍具挑战性。已采用概率模型检验（probabilistic model checking）和混合系统定理证明器进行分析，但完整的认证流程仍需时日。

6.6 参数整定的复杂性

设计参数的优化涉及数百万次仿真，即使使用64节点高性能计算集群，评估单个设计点也需一小时。设计参数数量相对较少（与数百万系统参数相比）虽有利于搜索，但仍需有效的自动化方法。

第七章个人反思与批判性分析

7.1 从规则驱动到数据驱动的范式转变

TCAS代表了典型的专家系统设计方法——依赖航空专家的知识和经验，将决策逻辑编码为大量启发式规则。这种方法在简单场景下有效，但难以应对现实世界的复杂性。ACAS X采用的POMDP建模和动态规划方法代表了数据驱动决策的范式转变：通过定义明确的状态空间、动作空间和奖励函数，系统能够从海量仿真数据中学习最优策略。

这一转变的启示在于：对于涉及人机交互的安全关键系统，简单的规则难以捕捉行为的变化范围，基于模型和优化的方法能够更系统地处理不确定性。

7.2 奖励函数设计的艺术性

尽管POMDP框架在理论上优雅，奖励函数的设计仍高度依赖工程判断。表10.2中大量（超过20个）奖励参数的存在表明，将安全性和运营目标转化为可量化的奖励信号是一个迭代过程，需要领域专家的参与和大量仿真评估。

这也揭示了形式化方法的一个根本局限：安全性和可用性等概念难以完全形式化。ACAS X的方法是将这些模糊概念通过大量参数和仿真来近似捕捉，而非追求解析解。

7.3 QMDP方法的适用性

采用QMDP方法处理部分可观测性是一个务实的选择。QMDP假设一旦观测到完整状态，不确定性将消失，这虽不严格但计算上可行。关键洞察是：对于碰撞规避问题，主要不确定性（传感器误差、飞行员响应）可在足够短的决策周期内近似为可观测的。

7.4 代理优化的实践价值

ACAS X参数整定中采用代理模型（surrogate model）优化方法，体现了工程实践中"快速评估-迭代改进"的思维。在安全关键系统的设计中，每次评估都需要大量仿真的情况下，代理模型能有效指导搜索方向，减少实际仿真次数。

7.5 对我研究工作的启发

本章展示的优化框架在以下方面对我的研究具有启发意义：

不确定性建模的系统化方法：将传感器误差、行为不确定性等显式纳入状态空间，而非用启发式规则补偿
离线优化与在线执行的分离：将计算密集型优化离线完成，在线执行仅需查表和简单计算
多目标权衡的实用方法：通过权重组合多目标，利用仿真评估指导参数选择

7.6 值得进一步探索的方向

若有机会与作者讨论，我将关注以下问题：

ACAS X如何处理飞行员异常行为（如过度响应、错误方向响应）？
在奖励函数设计中，是否尝试过逆强化学习（inverse reinforcement learning）从专家数据中学习？
对于无人机场景，水平机动咨询如何与垂直咨询协调？
系统的长期维护和更新如何进行——是否需要重新运行完整的动态规划？

公式汇总

编号	名称	形式	物理意义	类型
(10.1)	飞行员响应概率	$P(s_{res}' = \text{true} \\| s_{adv}, s_{res}, a)$	飞行员在给定咨询下响应的概率	(T)
(10.2)	状态更新方程	$[h, \dot{h}_0, \dot{h}_1, \tau, s_{adv}, s_{res}]' = f(h, \dot{h}_0, \dot{h}_1, \tau, a, s_{res}', \ddot{h}_0, \ddot{h}_1)$	离散时间系统状态转移	(T)
(10.3)	Bellman方程（连续）	$U^*(s) = \max_a [R(s,a) + \gamma \int T(s'	s,a)U^*(s')ds']$	最优值函数满足的积分方程
(10.4)	Bellman方程（离散）	$U^*(s) = \max_a [R(s,a) + \gamma \sum_{s'} T(s'	s,a)U^*(s')]$	离散化后的最优值函数递推
(10.5)	QMDP策略	$\pi^(b) = \arg\max_a \int b(s)Q^(s,a)ds$	信念状态下的近似最优动作	(T)
(10.6)	样本近似策略	$\pi^(b) = \arg\max_a \sum_i w^{(i)}Q^(s^{(i)}, a)$	用加权样本近似信念积分	(T)
(10.7)	信念分解	$b(h,\dot{h}_0,\dot{h}_1,\tau,s_{adv},s_{res}) = b(h,\dot{h}_0,\dot{h}_1) \cdot b(\tau) \cdot b(s_{adv},s_{res})$	信念状态的因子分解	(T)
(10.8)	碰撞时间递推	$D_k(s) = \sum_{s'} T(s,s')D_{k-1}(s')$	到达横向距离的概率递推	(T)

注：(T)=理论推导

术语表

英文术语	中文翻译	定义
Airborne Collision Avoidance System (ACAS X)	机载避撞系统X	新一代国际碰撞规避标准
Traffic Alert and Collision Avoidance System (TCAS)	流量告警与避撞系统	传统碰撞规避系统
Partially Observable Markov Decision Process (POMDP)	部分可观测马尔可夫决策过程	考虑状态不确定性的序列决策框架
Resolution Advisory (RA)	解决咨询	指导飞行员执行特定垂直机动的指令
Traffic Advisory (TA)	流量告警	提醒飞行员注意潜在威胁的告警
Near Midair Collision (NMAC)	近距空中碰撞	两机距离小于500 ft水平、100 ft垂直的事件
Dynamic Programming	动态规划	求解决策过程最优策略的算法框架
QMDP	QMDP方法	用完全可观测值函数近似POMDP策略的方法
Belief State	信念状态	对系统状态的不确定性概率分布
Sigma-Point Sampling	Sigma点采样	一种生成加权样本近似分布的方法

本章为《不确定性与决策》（Decision Making Under Uncertainty）第十章读书笔记

编号	名称	形式	物理意义	类型
(10.1)	飞行员响应概率	\(P(s_{res}' = \text{true} \\| s_{adv}, s_{res}, a)\)	飞行员在给定咨询下响应的概率	(T)
(10.2)	状态更新方程	\([h, \dot{h}_0, \dot{h}_1, \tau, s_{adv}, s_{res}]' = f(h, \dot{h}_0, \dot{h}_1, \tau, a, s_{res}', \ddot{h}_0, \ddot{h}_1)\)	离散时间系统状态转移	(T)
(10.3)	Bellman方程（连续）	$U^*(s) = \max_a [R(s,a) + \gamma \int T(s'	s,a)U^*(s')ds']$	最优值函数满足的积分方程
(10.4)	Bellman方程（离散）	$U^*(s) = \max_a [R(s,a) + \gamma \sum_{s'} T(s'	s,a)U^*(s')]$	离散化后的最优值函数递推
(10.5)	QMDP策略	\(\pi^(b) = \arg\max_a \int b(s)Q^(s,a)ds\)	信念状态下的近似最优动作	(T)
(10.6)	样本近似策略	\(\pi^(b) = \arg\max_a \sum_i w^{(i)}Q^(s^{(i)}, a)\)	用加权样本近似信念积分	(T)
(10.7)	信念分解	\(b(h,\dot{h}_0,\dot{h}_1,\tau,s_{adv},s_{res}) = b(h,\dot{h}_0,\dot{h}_1) \cdot b(\tau) \cdot b(s_{adv},s_{res})\)	信念状态的因子分解	(T)
(10.8)	碰撞时间递推	\(D_k(s) = \sum_{s'} T(s,s')D_{k-1}(s')\)	到达横向距离的概率递推	(T)