第 8 章：概率监控视频搜索（Probabilistic Surveillance Video Search）

章节作者：Jason R. Thornton 章节定位：应用篇第一章。第 1–6 章讨论了"单智能体序贯决策"在不确定性下的形式化与求解方法（涵盖 MDP、POMDP、模型与状态不确定性等），第 7 章把这一框架扩展到多智能体合作情境。本章是该书第一个应用案例研究——把前面章节的概率建模工具（特别是 POMDP 的隐藏状态推理与 Dirichlet-多项式共轭结构）落到一个真实工程问题：在大型监控视频中基于外观属性搜索嫌疑人。8.1 节给出问题形式化与系统流程（检测→评分），8.2 节搭建生成式外观概率模型（属性向量、隐变量、像素颜色与边缘特征），8.3 节讨论参数学习与隐状态推断的 EM/ICM 近似算法，8.4 节报告机场实测的精度与时延，8.5 节描述交互式搜索工具的用户界面与工作流。从结构上看，本章是第 2 章"概率模型"在视觉感知问题上的具体化——它把 2.3.2 节的 Dirichlet 先验、2.3.1 节的多项式似然、6.3 节的隐变量推断全部串成一个可工作的端到端系统。

8.1.1 Applications

监控视频中搜索某个人可拆为两个子问题：生物特征搜索与基于属性的搜索。生物特征搜索指基于生理特征（如面部外观）做精确身份匹配；自动人脸识别 [4] 或其他生物签名 [5] 在某些条件下可行，但要求事先有一个已捕捉的生物模板用于比对。当分析人员或调查人员只有对嫌疑人的文字描述或一张不能稳定捕捉唯一生物特征的样本图像时，该方法不适用。另一种是基于属性的搜索：系统寻找与一份基础外观档案相符的行人，属性包含可在远距离观察到的项目，如头发颜色、服装类型与颜色、性别、随身的包或其他携带物。这些描述有时被称为"软生物特征"（soft biometrics），因为它们在时间上是临时的，且合起来也不一定能唯一标识监控区域中的某个人。但这些档案通常足以显著缩小需要进一步检查的行人子集。自动属性搜索是一个困难问题，因为匹配同一属性档案的图像之间外观可以有很大差异。这些差异来自决定性因素：姿态、服装款式、光照、视角、人群中的自然差异。图 8.1 给出符合"蓝色上衣 + 黑色裤子"这一基本属性的若干样本图像——虽然它们都是同描述的匹配，但像素层面差异很大。准确的搜索技术必须能在这些差异下正确解读图像内容。虽然属性搜索问题之前已被研究过（特别是近距视频中的人脸属性 [6]），本章采用概率方法；概率技术的主要优势在于：它们提供了一种优雅的方式来处理外观的总体变化，特别是当这些变化依赖于图像合成的潜在（不可观察的）因子时。

在讨论属性搜索的解决方案之前，先指出它对安防应用的价值。调查人员或安保人员常常需要在多个分布式的摄像机视图中监控与行人活动相关的有用信息。场景包括大型公共设施、关键基础设施周边区域，或在执法监控下的众多城市区域。在这些情况下，调查行动往往由目击者或警员对"嫌疑人"的口头描述触发。能执行属性搜索的系统可以在大量监控视频中扫描与该描述的明显匹配，从而显著减少繁琐的视频审查。除了法证视频复审外，高效的属性搜索还可实时监控多路现场摄像机，实时寻找潜在匹配。在这种运行模式下，系统持续扫描输入流以寻找与给定描述的匹配，并在出现足够强的匹配时更新警报列表；分析人员随后审查该列表以获取关于潜在嫌疑人的地理位置线索。注意，在任何应用中，操作员都能容忍一定的搜索错误，因为他们可以审查并确认或否定搜索结果的有效性。但是，属性搜索工具能在多大程度上加速监控视频复审，严重依赖于搜索技术的精度。

8.1.2 Person Detection

本章描述的搜索技术有两个主要组件：检测与评分。第一个组件摄入原始监控视频，并尝试在每个摄像机视图中检测出所有运动行人实例。该过程被设计成在视频录制时实时运行，把所有检测存为带时间戳与位置戳的记录写入数据库以备后查。系统不处理视频的每一帧，而是每秒采样一帧——因为相邻帧之间内容高度冗余。它也只检测运动中的行人，因为不需要把静止目标反复写入数据库。

从单帧中提取检测的方法采用标准的滑动窗口方法，对场景内的候选检测位置求值。每个候选位置由包围框 \((x, y)\) 及其尺寸 \((w, h)\) 指定。因为该方法假定包围框高宽比固定，所以搜索过程中需要扫描的参数实际只有三个。在每个候选位置，系统评估图像的相应子区域是否满足三个准则：呈现人的形状、符合场景的地面平面约束、含较高比例的运动像素（而非静态背景）。三个准则的组合产生相当稳健的运动行人检测 [3]，且误报（即非人杂波）较少地写入数据库。

图 8.2 给出两个不同机场监控环境中视频样本帧的检测结果。在这些情况下，检测过程成功捕捉到了每一段行人运动。注意该方法并非总能检测到处理过的摄像机视图中每一个运动行人（特别是当被场景其他部分严重遮挡时）；但它很可能捕获每个人逐帧外观中的至少一个子集，从而使数据库中保有每个人的某种表示。

8.1.3 Retrieval and Scoring

一旦检测数据库构建完成，我们需要一种方法，针对给定搜索请求从中查找匹配。搜索请求由三部分组成：搜索时间窗、要搜索的摄像机或摄像机内区域子集，以及属性档案。前两个条件根据时间戳与位置戳决定从数据库中检索哪些记录；接下来，对每条候选记录针对属性档案的匹配程度打分；最后，分数超过某基线阈值的记录按分数降序排序，排名前若干的作为搜索结果返回。搜索过程最关键的部分是评分机制。它必须足够精确，以便给出好的相关性度量——把明确匹配排在近匹配之上，把近匹配排在明确不匹配之上；同时必须允许快速评估以最小化等待时间。下一节描述的模型利用概率推理的原理实现所需的评分行为。

8.2.1 Observed States

本节构建一个概率模型，刻画属性描述与监控视频中"匹配该描述"的某人的观测之间的关系。该模型是生成式的：它描述一个观测状态（属性档案）生成另一个观测状态（构成监控图像块的数字像素值集合）的似然。这些信息被统称为系统的观测状态 \(O\)。属性档案生成观测像素值集合的多种途径，源于人群差异与视频采集环境差异。我们可以通过向生成模型加入一组隐藏状态 \(H\) 来显式地建模部分变化，以表示重要因子，如图像块内身体组件的位置。除了提供更明确的模型结构外，生成模型的隐藏状态还把完整的联合概率分布分解为一系列更易处理的、以图像合成的关键状态为条件的条件分布。对观测变量集的某一给定实例化，我们通过对隐藏状态最大化模型的联合概率来计算匹配分数 \(s\)：

\[ s = \max_H p(O, H) \]

直观上，该方法找到观测数据的"最可能解释"（以解释图像生成的隐藏状态形式），再对图像块的相关性打分。当观测图像与属性描述吻合良好时，应存在一组隐藏状态值使生成概率相对较高；反之，当观测图像不是好的匹配时，应不存在任何隐藏状态值使模型评估结果具有高概率。当公式化得当时，生成模型是解释观测图像数据似然同时考虑预期变化的有效方式。

首先更精确地定义模型的观测状态。属性向量 \(A\) 由一组在远距离可见的外观属性组成，包括性别、服装颜色与包信息。表 8.1 列出 \(A\) 中包含的各个变量。在该定义中有六个类别变量，每个都可以取"未指定"（unspecified）这一取值，以适应只有有限信息的场景。颜色值定义为以下 12 种常见感知类别之一：白、灰、黑、黄、橙、粉、红、绿、蓝、紫、棕、米黄。如本节后文所讨论的，该调色板可扩展以纳入颜色空间中的任意取值或多种颜色的混合。包类型分为交通场景（如机场）中常见的三类：双肩包、手提包与大件拉杆箱。

除属性档案外，生成模型中的另一个主要观测状态是被评估的图像块。我们不直接使用像素值，而是对图像应用一个特征提取步骤来计算特征，以捕捉关于颜色与形状的概要信息。例如，可以根据像素在颜色空间中的位置为每个像素指定一个颜色类别。设 \(X^k\) 表示第 \(k\) 个像素在色相-饱和度-明度（HSV）颜色空间中的三维取值。HSV 颜色空间定义在柱坐标系上，设计上使得其周期性色相轴与人类视觉系统的感知颜色区分吻合良好。我们把 12 种感知颜色类别中的每一种建模为 HSV 颜色空间内的一个概率密度函数。图 8.3 给出颜色模型的统计依赖关系。\(C^k\) 表示像素 \(k\) 的颜色类别变量，可取 1 至 12 中的任意整数值。参数集 \(\psi\) 包含 12 个类别中每一个的均值向量 \(\mu\) 与协方差矩阵 \(\Sigma\)。这些参数值通过把由测试对象分配的样本拟合到各类别的密度来学习；它们共同构成用于评估图像中每个像素的颜色模型。我们假设每个颜色类别的先验概率是均匀的，条件概率由拟正态密度给出：

\[ p(X^k \mid C^k = i, \psi) = \phi(\psi_i) \exp(-0.5 \cdot d(X^k, \mu_i)^\top \Sigma_i^{-1} d(X^k, \mu_i)) \]

其中 \(d(\cdot)\) 是向量差算子，经过修改以适用于 HSV 柱坐标系，使得周期性色相轴上的差异（取值范围 0 到 1）由下式给出：

\[ d(X^k_{\text{hue}}, \mu^i_{\text{hue}}) = \mathrm{mod}(X^k_{\text{hue}} - \mu^i_{\text{hue}} + 0.5, 1) - 0.5 \]

由于这是一个截断分布（定义在柱坐标系有限区域上），常数 \(\phi(\psi_i)\) 被设为使分布归一化为和为一。使用该模型，我们用最大似然法为每个像素分配颜色类别：

\[ C^k = \arg\max_i p(X^k \mid C^k = i, \psi_i) \]

所得特征（即逐像素的颜色标签）只需在运动行人图像被检测到时提取一次，并被存入数据库。虽然此处不讨论细节，我们可以应用类似过程提取其他原始特征以捕捉每个像素周围的局部边缘或纹理信息。例如可以对图像施加梯度提取滤波器，根据边缘幅度与方向为每个像素分配一个类别。与颜色类别一样，这些特征代表具有一定概念意义的观测状态——它们与生成模型内图像合成的隐藏状态相关联。

8.2.2 Basic Model Structure

本节描述的生成模型具有层次结构，图像生成的关键因子被编码为层次中的潜变量。图 8.4 以图模型形式给出变量及其依赖关系。首先，把图像划分为它的组成部分（如头、躯干等）。然后模型根据属性档案分配的标签为每个组件定义视觉主题，或定义关于可观察特征的分布。向量 \(Z\) 表示把图像划分为其组成部分（头、躯干、下身、可选的包）的潜变量。每个组件区域由一个包围框指定，如图 8.5 所示的样本划分。该向量的第一部分 \(z_{\text{body}}\) 编码身体在图像块内的二维位置，因为检测到的图像块并不紧密包围行人：

\[ z_{\text{body}} = (x_{\text{body}}, y_{\text{body}}, w_{\text{body}}, h_{\text{body}}) \]

四个值分别以全图像块的宽和高为相对单位指定 \(x\) 位置、\(y\) 位置、宽度与高度。把这些值表示为图像块尺寸的比例，使它们对检测行人时的图像分辨率具有不变性。除整体身体位置外，还有感兴趣组件各自的包围框矩形：\(z_{\text{body}}\)、\(z_{\text{head}}\)、\(z_{\text{torso}}\) 与 \(z_{\text{bag}}\)（若需要）。正像 \(z_{\text{body}}\) 是相对整个图像块定义的，这些组件各自相对 \(z_{\text{body}}\) 的位置与尺寸定义。为了定义关于划分变量的分布，模型把所有非包组件组合到一个向量中：

\[ z_{\text{base}} = (z_{\text{body}}, z_{\text{head}}, z_{\text{torso}}, z_{\text{lower}}) \]

并假设这些取值由一个均值向量 \(\mu_{\text{base}}\) 与协方差矩阵 \(\Sigma_{\text{base}}\) 的截断正态分布联合给出。从联合分布中选取这些取值兼顾了组件位置之间的相关性（例如头部偏左通常对应躯干也偏左）。完整的状态向量 \(Z\) 由基本位置向量与包位置向量（当属性档案指定包信息时）拼接而成：

\[ Z = (z_{\text{base}}, z_{\text{bag}}) \]

不像身体位置，包位置不能用单一的单峰分布充分描述，因为包的形状及携带方式有更高变异性。例如在机场环境中，至少有三种常见包类型：双肩包、手提包（如手提袋或小型行李）以及通常滚轮运输的较大行李。图 8.5 给出每种包类型的一个示例。在属性集中，变量 \(b_t\) 指定包类型，因此模型采用三种不同分布（以 \(b_t\) 为条件）。在每种情况下，包位置被建模为从训练样本学得的非参数核密度。每个密度被转换为跨越 \(z_{\text{bag}}\) 矩形可能取值的快速查找表。三个查找表各由一个离散值向量 \(T\) 表示，因此控制划分状态选取的全部参数集合为：

\[ \theta = (\mu_{\text{base}}, \Sigma_{\text{base}}, T_{\text{backpack}}, T_{\text{hand-carried}}, T_{\text{rolled-luggage}}) \]

在所有相关划分变量定义完成后，划分状态在给定属性集与划分参数的条件分布为：

\[ p(Z \mid A, \theta) = N(z_{\text{base}} \mid \mu_{\text{base}}, \Sigma_{\text{base}}) \cdot T_{b_t}(z_{\text{bag}}) \]

其中属性集中的包类型 \(b_t\) 用于选择确定 \(z_{\text{bag}}\) 概率的相应查找表。当未指定包信息时，算法取均匀概率，因为此时包位置无关紧要。

一旦组件位置被确定，模型根据属性档案管控每个组件区域内的观测特征。为此，模型采用著名潜在主题模型所用模型的简化形式，这些模型此前已被应用于文本 [9] 与视觉 [10] 数据的解释。在本应用中，主题（或观测特征的混合）当然是视觉的。为说明概念，我们考虑在像素层生成观测颜色信息，尽管模型也能纳入其他像素层特征。首先定义离散数量的基本颜色类别，使其与属性档案的 \(N_c\) 个基本感知颜色选项相匹配。\(N\) 个组件区域中的每一个关联于这些颜色类别上的一个混合，由潜主题向量 \(\pi_i\) 表示。这个和为一的实值状态向量为每个颜色类别分配比例权重，指示其在局部组件内被观测到的可能性。需要注意的是，一个组件内的观测颜色类别依赖于该组件的属性描述，但这一关系不是确定性的。例如，标为"深红上衣"的躯干很可能包含由红色与黑色类别主导的混合。然而，精确的混合依赖于若干其他因子，如服装款式、材质构成、光照与阴影效应。为处理这一变化，颜色主题状态向量由 Dirichlet 先验分布抽取。如 2.3.2 节所讨论的，Dirichlet 密度常被用作类别变量参数之上的先验分布。因此，颜色混合 \(\pi_i\) 按下式抽取：

\[ p(\pi_i \mid \omega) = \phi(\omega) \prod_{k=1}^{N_c} \pi_i(k)^{\omega(k)-1} \]

其中 \(\omega\) 是 Dirichlet 伪计数参数向量，\(\phi(\omega)\) 是 Dirichlet 归一化因子。由于属性档案指定的每种颜色对应不同的 Dirichlet 参数，我们用大小为 \(N_c \times N_c\) 的矩阵 \(\alpha\) 表示颜色混合先验的所有参数。该矩阵的第 \(k\) 行，记作 \(\alpha(k)\)，给出第 \(k\) 种颜色对应的 Dirichlet 参数向量。以躯干组件的颜色主题 \(\pi_{\text{torso}}\) 为例，该主题的先验概率依赖于属性档案 \(A\) 中给出的躯干服装颜色 \(t\)，因此：

\[ p(\pi_{\text{torso}} \mid A, \alpha) = \phi(\alpha(t)) \prod_{k=1}^{N_c} \pi_{\text{torso}}(k)^{\alpha(t)(k)-1} \]

我们以类似方式为每个 \(\pi_i\) 组件定义条件概率，只需在上述表达式中把 \(t\) 替换为属性档案中的相应变量。为每个局部组件选定颜色主题后，每个像素处的颜色观测按包含该像素的组件的主题抽取。该观测颜色状态的生成仅在前景像素（即被标记为属于行人或随身物体而非静态背景的像素）处执行。设 \(C^q\) 表示图像块内第 \(q\) 个前景像素的颜色观测，它是一个类别变量，可取 \(N_c\) 个颜色类别之一。\(C^q\) 在给定划分 \(Z\) 与主题集 \(\{\pi_1, \dots, \pi_N\}\) 下的概率为：

\[ P(C^q \mid Z, \pi_1, \dots, \pi_N) = \pi_i(C^q) \]

其中组件索引 \(i\) 由一个选择器函数导出：

\[ i = S(Z, q) \]

该函数按划分把每个像素索引映射到包含它的组件。实际上，划分决定了哪个颜色主题适用，然后该主题成为抽取像素层观测的概率质量函数。因为在此模型中，在给定主题后每个单独颜色观测独立于其他像素层观测，把观测状态表示为直方图（即类别频数计数）即已足够。设函数 \(y(Z, i, j)\) 把组件 \(i\) 内颜色类别 \(j\) 的所有观测求和（按划分 \(Z\)）。则与组件 \(i\) 对应的直方图定义为：

\[ Y_i = [y(Z, i, 1), y(Z, i, 2), \dots, y(Z, i, N_c)] \]

不再从主题逐个抽取样本，我们现在可以使用图 8.6 所示的模型结构。在这一等价但简化的结构中，每个局部组件根据主题指定的混合生成一个单一直方图。为消除图像分辨率的影响，我们把每个直方图归一化使其所有计数之和等于 100——因为唯一需要保留的信息是各类别的相对频率。对从给定概率质量函数进行的 100 次独立抽取，结果频率直方图的概率由多项式分布给出：

\[ p(Y_i \mid Z, \pi_i) = \frac{100!}{\prod_k y(Z, i, k)!} \prod_{k=1}^{N_c} \pi_i(k)^{y(Z, i, k)} \]

至此我们完整定义了一个简单生成图像模型的基础。模型的主要概念机制是：选定身体及随身包的组件位置，再在每个组件内选定基于特征的"主题"，最后选定观测的像素层状态。在下小节中，我们考虑该基础模型结构的扩展。

8.2.3 Model Extensions

虽然基础生成模型为属性搜索提供了有效基础，我们可以通过纳入其他形式的属性档案输入或像素层观测来增加模型的灵活性。以下每个模型扩展都能为属性搜索过程增加精度或准确度。

性别。表 8.1 所列的属性集包括观测变量 \(g\)，指示嫌疑人性别。为把该考虑纳入模型，我们需要某种方式从图像块得出关于表观性别的可观测度量。8.1.2 节概述的行人检测过程计算一组刻画局部梯度信息的特征（称为方向梯度直方图特征 [11]）。这些特征被送入一个训练用于识别人形轮廓的分类器，这是检测的一个重要准则。因为这些特征也捕捉了某些关于表观性别的信息（如发型、服装款式、体型），我们可复用它们以构建一个性别分类器。所得分类器产生一个实值分类分数 \(G\)，范围为 \([-G_{\max}, G_{\max}]\)。接近该区间两个端点的分数分别指示男性或女性的强证据；而接近零中心的分数指示较弱或不确定的证据。

图 8.7 给出基础生成模型加入性别分类器输出作为观测状态后的扩展。为定义 \(G\) 上的条件概率分布，我们首先定义两个函数，使用属性档案中的性别规格 \(g\) 对 \(G\) 的取值重新映射。第一个函数 \(s(G, g)\) 根据 \(g\) 改变 \(G\) 的符号，使正值总表示对指定性别的更好匹配，负值总表示更差匹配。如果 \(g\) 在属性档案中未指定，则 \(s(G, g)\) 映射为零（因为 \(G\) 的取值在此情况下无关紧要）。第二个函数把 \(G\) 的取值映射到从零到一的区间：

\[ m(G, g) = \frac{G_{\max} - s(G, g)}{2 \cdot G_{\max}} \]

使零值对应最强的档案匹配证据，一值对应最强的档案不匹配证据。模型把性别分数在给定指定性别属性下的条件概率定义为在重映射分数上的截断指数分布：

\[ p(G \mid A, \lambda) = \phi(\lambda) \cdot e^{-\lambda \cdot m(G, g)} \]

参数 \(\lambda\) 决定分布的形状，\(\phi(\lambda)\) 把截断指数概率密度函数归一化使其积分为一。注意该分布在接近零处给出相对较高概率值（强匹配证据），但随分数趋近于一（强不匹配证据）而迅速衰减。因为 \(\lambda\) 决定指数变化的速率，它实际上控制了该观测相比模型其他观测的影响强度。换言之，较高的 \(\lambda\) 值使得性别分析对模型的整体联合概率产生较大影响，因而对图像块的总体匹配分数也有较大影响。因此，\(\lambda\) 可被视为匹配算法的一个可调参数，设定以强调性别相比其他属性档案元素的相对重要性。性别分数是一个可以从整个图像块借助预训练分类器导出的观测状态的例子。虽然此处不讨论细节，类似类型的分类器可用于提取其他相关状态，如人的身高或体型。生成模型也可通过等价的分支结构与条件概率函数纳入这些状态。

颜色可变性。模型使用一组预定义的常见感知颜色以支持类别特征提取与颜色主题表示。然而我们不一定把属性档案的颜色规格限制在这些类别选项上。嫌疑人的描述往往包含具体颜色色度（如浅蓝）或不与任何预定义选项良好对应的颜色定义。作为类别规格的替代，我们允许颜色由 RGB 或 HSV 颜色空间中的任意点定义（这种精确取值可以方便地从颜色面板界面选择）。我们随后用为每个常见感知颜色学得的颜色空间分布，把该点投影到这些常见感知颜色组成的基上。结果是一个长度等于颜色类别数 \(N_c\) 且和为一的比例系数向量 \(\rho\)。公式 (8.11) 定义了在给定 Dirichlet 参数集下图像某组件内颜色主题的条件概率。在那种情况下，当指定颜色由类别变量 \(t\) 给出时，相关的 Dirichlet 参数向量通过从参数矩阵 \(\alpha\) 取单一行 \(\alpha(t)\) 选定。或者，当颜色由 \(\rho\) 比例表示时，我们使用加权和来计算 Dirichlet 参数：

\[ \alpha(\rho) = \sum_{k=1}^{N_c} \rho(k) \alpha(k) \]

实际中，这一方法是为颜色规格过程增加灵活性的有效方式，无需对应大量类别集合（以及许多相应的颜色模型）。该方法也为处理同一图像组件指定多种颜色提供了途径——在这种情况下，多种颜色取值通过在 \(\rho\) 向量中给它们赋相等权重来混合。

边缘原始特征。基础模型结构在像素层使用颜色特征以刻画每个图像组件内的观测状态。虽然颜色信息是重要线索，但它不是唯一有用的低层原始特征。尤其为了区分不同类型的组件，我们可能希望纳入基于形状、边缘、梯度或纹理的特征。作为一个例子，我们考虑使用滤波器组处理提取边缘信息。通过施加一组在不同尺度与方向上测量强度变化的滤波器（如 Gabor 滤波器 [12]）并分析其联合响应，可以提取图像块内每个像素周围的边缘或梯度特征。对响应空间做划分即可对每个位置观察到的局部边缘或梯度类型分类。这些特征对图像解释有用，因为不同的图像组件（如包 vs 躯干）可能呈现不同混合的边缘类型。边缘特征一旦被定义，我们即可把每个图像组件的边缘主题表示为模型中的一个潜变量。该模型扩展类似于颜色主题被纳入基础模型的方式——两者都是像素层状态预期频率的表示。图 8.8 给出基础模型的扩展版本，含一条用于边缘状态生成的并行分支。向量 \(\omega_i\) 表示第 \(i\) 个组件的边缘主题，\(\beta\) 是 \(N \times N_e\) 的 Dirichlet 权重矩阵，其中 \(N\) 是图像组件数，\(N_e\) 是边缘类别数。边缘主题的概率由带权重的 Dirichlet 密度给出，权重取自 \(\beta\) 中与组件索引对应的一行（而不是用于 \(\alpha\) 行选择的颜色规格）：

\[ p(\omega_i \mid \beta) = \phi(\beta(i)) \prod_{k=1}^{N_e} \omega_i(k)^{\beta(i)(k)-1} \]

向量 \(E_i\) 存储边缘观测计数的直方图，其中正如颜色直方图，计数是划分 \(Z\)、组件索引 \(i\) 与特征类别 \(k\) 的函数 \(\varepsilon(Z, i, k)\)：

\[ E_i = [\varepsilon(Z, i, 1), \varepsilon(Z, i, 2), \dots, \varepsilon(Z, i, N_e)] \]

最后，边缘直方图（归一化到总数 100）的条件概率由多项式分布给出：

\[ p(E_i \mid Z, \omega_i) = \frac{100!}{\prod_k \varepsilon(Z, i, k)!} \prod_{k=1}^{N_e} \omega_i(k)^{\varepsilon(Z, i, k)} \]

把额外的原始特征类型（如边缘特征）纳入模型能够带来更准确的图像解释，因为匹配过程同时考虑了多个观测因子。这种特征类型的组合能够化解单一特征类型所表现出的歧义。任何类别化的、基于像素的特征都可以通过扩展平行于图 8.8 中分支的分支纳入模型。

8.3.1 Parameter Learning

本章给出的模型包含三种基本类型的变量：参数、观测状态与隐藏状态。模型参数在初始训练阶段被估计，然后在使用模型时保持不变。本节描述使用训练数据集上的最大似然估计学习模型参数的过程。参数值选定后，模型即可用于估计在给定属性档案下观测到某图像的似然。我们给出一种高效的过程以执行对模型隐藏状态的推断，从而估计该联合概率值并赋予最终匹配分数。由于模型有非平凡的变量依赖结构，与大多数实际应用中的模型一样，参数值与隐藏状态的最大似然估计并不一定具有闭式解。因此我们依赖若干种近似估计技术以收敛到解。

为促进模型参数的学习，我们必须能访问一份已标注的训练图像数据集。例如，我们可以从多个源视频中取出运动行人检测样本，并对每个样本的隐藏状态标注一些真值。特别地，如果我们为每个图像划分其组成部分（如图 8.5 所示）以及主色与组件类型描述符加上标签，则我们就有了学习模型关键条件分布所需的足够数据。把标签分配给达到这种细节程度的训练数据需要一定时间与精力，但该过程并不极其耗费资源，因为它要求每个图像块只选择少量包围框与类别。所得数据足以学习模型参数，如本小节其余部分所述。

划分参数。图 8.9 把划分参数学习问题表达为一个 plate 图。向量 \(Z^j\) 表示已标注数据集中第 \(j\) 个划分观测，该数据包含总共 \(M\) 个训练样本。回忆 8.2.2 节，划分向量由两部分组成：

\[ Z = [z_{\text{base}}, z_{\text{bag}}] \]

分别代表基本身体组件（整体、头、躯干、下身）以及包组件（若存在）。\(z_{\text{base}}\) 的取值服从多元正态分布，而 \(z_{\text{bag}}\) 的取值按包类型服从非参数分布。因此参数集 \(\theta\) 包含以下五个（多维）参数：

\[ \theta = [\mu, \Sigma, T_1, T_2, T_3] \]

前两个指定 \(z_{\text{base}}\) 的均值向量与协方差矩阵，后三个代表与三种主要包类型相关的 \(z_{\text{bag}}\) 概率查找表。为训练身体组件位置的模型，我们组装一个只包含每个已标注划分示例的 \(z_{\text{base}}\) 部分的数据集：

\[ D_{\text{base}} = \{z_{\text{base}}^j\}_{j=1}^{M} \]

我们的目标是关于多元正态参数最大化 \(D_{\text{base}}\) 的概率，假设每个训练样本统计独立。对于正态分布，均值向量 \(\mu\) 的最大似然估计众所周知即样本均值：

\[ \hat{\mu} = \arg\max_\mu p(D_{\text{base}} \mid \mu, \Sigma) = \frac{1}{M} \sum_{j=1}^{M} z_j \]

\(\Sigma\) 的最大似然估计为样本协方差矩阵：

\[ \hat{\Sigma} = \arg\max_\Sigma p(D_{\text{base}} \mid \hat{\mu}, \Sigma) = \frac{1}{M-1} \sum_{j=1}^{M} (z_j - \hat{\mu})(z_j - \hat{\mu})^\top \]

因此模型这部分的学习是把训练数据值代入闭式解以得到参数估计的直接过程。因为包位置不倾向于服从单峰高斯分布，它们需要不同类型的学习。为区分包类型，我们定义三个数据集 \(D_1\)、\(D_2\)、\(D_3\)，分别对应生成模型中包类型变量 \(b_t\) 的三种可能取值。每个数据集包含训练数据中标注为某一包类型的所有样本：

\[ D_i = \{z_{\text{bag}}^j : b_t = i\}_{j=1}^{M} \]

由于包位置不能由传统参数密度良好刻画，我们改用非参数核密度来确定概率。包位置的密度被设为 \(M_i\) 个高斯形核的和，每个核中心位于其对应的训练样本上：

\[ p(z_{\text{bag}}) = \frac{1}{M_i} \sum_{j=1}^{M_i} K_G(z_{\text{bag}} - z_j) \]

其中 \(K_G\) 是常规模定大小的多元高斯核。最后，所得密度被划分为查找表 \(T_i\) 以大幅加速概率求值。能够形成这种查找表是因为包位置变量跨越的维度空间相对较低（仅四个轴：\(x\) 位置、\(y\) 位置、宽度、高度），可以由一个粗粒度划分的查找表充分表示。

Dirichlet 参数。模型中的另一类主要参数是与每个组件颜色规格关联的 Dirichlet 权重。我们可以通过一次关注一种颜色类别分别学习每个权重向量 \(\omega\)（对应 \(\alpha\) 矩阵中的一行）。对给定类别，我们可以从训练图像中收集任何已用该颜色标签标注的局部组件。所得数据集由 \(M\) 个观测颜色直方图构成，每个组件一个：

\[ D = \{Y^j\}_{j=1}^{M} \]

图 8.10 描绘单个 \(\omega\) 权重向量的学习问题。对 \(M\) 个训练示例中的每一个，该参数向量决定生成潜主题向量 \(\pi^j\) 的似然，进而决定生成观测直方图 \(Y^j\) 的似然。训练数据只是部分可观测的，因为我们无法收集关于隐藏主题变量的标注。因此我们希望通过关于 \(\omega\) 边缘化掉 \(\pi^j\) 来直接表达观测 \(Y^j\) 的似然：

\[ p(Y^j \mid \omega) = \int p(Y^j \mid \pi^j) p(\pi^j \mid \omega) \, d\pi^j \]

由于该积分内的两个条件分布分别具有多项式与 Dirichlet 形式，我们可以代入公式 (8.10) 与 (8.15) 中的表达式，将其合并后得：

\[ p(Y^j \mid \omega) = \frac{100! \, \phi(\omega)}{\prod_k Y^j(k)!} \int \prod_k \pi^j(k)^{Y^j(k) + \omega(k) - 1} \, d\pi^j \]

如上式那样边缘化掉潜主题变量，所得为复合 Dirichlet-多项式分布。所得闭式分布（有时称为 Polya 分布 [13]）为：

\[ p(Y^j \mid \omega) = \frac{100!}{\prod_k Y^j(k)!} \cdot \frac{\Gamma\left(\sum_k \omega(k)\right)}{\Gamma\left(\sum_k (\omega(k) + Y^j(k))\right)} \cdot \prod_{k=1}^{N_c} \frac{\Gamma(\omega(k) + Y^j(k))}{\Gamma(\omega(k))} \]

其中 \(\Gamma\) 表示 gamma 函数。学习过程的目标是求参数 \(\omega\) 关于训练数据集 \(M\) 个独立样本的最大对数似然估计：

\[ \hat{\omega} = \arg\max_\omega \log p(D \mid \omega) = \arg\max_\omega \sum_{j=1}^{M} \log p(Y^j \mid \omega) \]

代入公式 (8.33) 并略去任何不依赖于 \(\omega\) 的项，可得参数优化的最终目标函数。由于上述优化问题没有闭式解，\(\omega\) 的最大似然估计必须用迭代数值技术近似。我们可以用于此任务的许多候选方法具有不同的收敛性质与实际优势。以下两种方法较为常见：

像 Newton-Raphson 优化这样的不动点迭代技术，其中一个初始估计被使用同一条更新规则反复更新直至收敛。在 Newton-Raphson 的情形下，更新规则为：

\[ \hat{\omega}^{(n+1)} = \hat{\omega}^{(n)} - H_\omega(\log p(D \mid \omega))^{-1} \cdot \frac{\partial}{\partial \omega} \log p(D \mid \omega) \]

其中 \(\hat{\omega}^{(n)}\) 是迭代中的当前参数估计，\(H_\omega\) 是关于 \(\omega\) 的 Hessian 矩阵。所需的一阶与二阶偏导可由目标函数导出。

像 Nelder-Mead 方法或模拟退火方法 [14] 这样的直接搜索优化方法。这些迭代过程不使用函数导数；相反，它们依赖启发式，根据对先前样本的评估决定新样本值的位置。

任何一种方法都可能需要对大型泛函进行许多次评估，计算代价可能较高。然而，学习只需针对特定训练集执行一次，之后模型才被用于执行任何属性搜索。我们也可以对纳入模型的任何其他基于像素的特征原始类型（如 8.2.3 节讨论的基于边缘的特征）并行应用相同的学习过程。因为每个特征生成分支的条件分布保持相同形式（Dirichlet 与多项式），学习过程所需的唯一调整是从已标注图像中提取不同的训练数据集。最后，我们得到反映训练数据中捕获的外观变化的参数值。这些值将使模型能够对呈现相似特征的新图像进行准确解释。

8.3.2 Hidden State Inference

为提取属性档案与图像块之间的匹配分数，我们使用生成式概率模型评估这些联合观测的似然（即呈现指定属性的图像生成观测特征的概率）。除模型参数外，生成模型还包含一组观测变量 \(O\) 与一组隐藏图像生成变量 \(H\)。图 8.11 给出基础模型结构及其到观测与隐藏变量集的划分。评估匹配分数的一种方法是计算观测变量的边缘似然，积分掉隐藏状态：

\[ s = p(O) = \int p(O, H) \, dH \]

概念上，这类似于在所有可能的图像生成模式上取平均似然。该方法的主要缺点是与边缘化相关的计算代价。隐藏状态上的积分没有闭式解，且在这样的高维空间上进行数值积分计算量很大。作为替代，我们使用基于隐藏变量最大似然估计的匹配分数评估：

\[ s = \max_H p(O, H) \]

概念上，这等价于找到数据的"单一最可能解释"（以潜生成状态的形式），并在该状态空间的点评估模型。该方法把推断变为更易处理的优化问题，因为目标是关于隐藏变量最大化联合概率分布。虽然最大似然方法比边缘似然方法更易处理，它仍没有闭式解。然而我们可以通过聚焦于完整隐藏变量集的子集来找到一个部分解。首先我们根据基础模型的变量依赖结构对联合分布做因式分解：

\[ p(O, H) = p(Z \mid A, \theta) \prod_{i=1}^{N} p(\pi_i \mid A, \alpha) \cdot p(Y_i \mid Z, \pi_i) \]

如果我们假设对 \(\hat{Z}\) 的一个固定估计，则我们可以对每个 \(\pi_i\) 单独优化，取：

\[ \hat{\pi}_i = \arg\max_{\pi_i} p(O, H) = \arg\max_{\pi_i} p(\pi_i \mid A, \alpha) \cdot p(Y_i \mid \hat{Z}, \pi_i) \]

并服从约束：

\[ \sum_{k=1}^{N_c} \pi_i(k) = 1 \]

该假设把问题简化为寻找一个使两个条件似然乘积最大的单一状态向量。代入相关定义后可化简得到：

\[ \hat{\pi}_i = \arg\max_{\pi_i} \prod_{k=1}^{N_c} \pi_i(k)^{Y_i(k) + \omega_i(k) - 1} \]

仍服从向量 \(\pi_i\) 所有元素之和为一的约束。通过使用 Lagrange 乘子可导出该约束优化问题的闭式解，得到颜色混合状态的最大似然估计公式：

\[ \hat{\pi}_i = \left[ \frac{Y_i(1) + \omega_i(1) - 1}{\sum_k (Y_i(k) + \omega_i(k) - 1)}, \dots, \frac{Y_i(N_c) + \omega_i(N_c) - 1}{\sum_k (Y_i(k) + \omega_i(k) - 1)} \right] \]

其中颜色直方图 \(Y_i\) 按划分估计 \(\hat{Z}\) 计算。既然我们可以基于 \(\hat{Z}\) 导出所有 \(\hat{\pi}_i\) 的闭式估计，我们还需要一种方法关于划分也最大化联合概率分布。因为划分变量本质上控制着形成特征直方图的选择函数，我们希望最大化的联合似然关于划分状态不可微。这限制了可用于估计最优状态取值的数值技术范围，只能用直接搜索技术。由于穷尽搜索所有组件位置组合不切实际，我们可以转而使用一种称为迭代条件模式（ICM）[15] 的贪心搜索。首先我们把划分变量的初始估计设为它的最大先验值，即由参数 \(\mu_{\text{base}}\) 给出的正态分布的均值（必要时）与按相关查找表的包位置最大似然估计的组合。然后依次对每个组件（整体、头、躯干、下身、包），我们搜索该组件包围框的取值，使在其他所有组件位置固定在其当前估计的条件下，模型的联合概率分布最大。通过这种方式，ICM 把一个相对高维的搜索空间分解为一系列更易处理的四维搜索空间。虽然不能保证收敛到全局最大，但该近似优化技术在实践中通常工作良好。

8.3.3 Scoring Algorithm

本小节概述评分算法的具体步骤。首先，为方便起见，我们把匹配分数的定义调整为等于联合概率分布的最大对数似然：

\[ \hat{s} = \log p(O, \hat{H}) \]

由于对数函数单调，隐藏状态的最大似然估计不变。该对数似然可表达为：

\[ \hat{s} = s_0 + \sum_{i=1}^{N} s_i \]

其中：

\[ s_0 = \log p(\hat{Z} \mid A, \theta) = \log N(\hat{z}_{\text{base}} \mid \mu_{\text{base}}, \Sigma_{\text{base}}) + \log T_{b_t}(\hat{z}_{\text{bag}}) \]

称为划分分数，而：

\[ s_i = \log p(\hat{\pi}_i \mid A, \alpha) + \log p(Y_i \mid \hat{Z}, \hat{\pi}_i) \]

称为第 \(i\) 个组件分数。把相关条件概率定义代入组件分数并化简可得：

\[ s_i = -\sum_k \log Y_i(k)! + \sum_k (Y_i(k) + \omega_i(k) - 1) \log \hat{\pi}_i(k) + \phi_i \]

其中 \(\phi_i\) 项是归一化常数，不依赖于被评估的图像，因此在评分过程中无意义。评分算法的目标是关于隐藏状态估计最大化划分分数与所有组件分数之和。

算法 8.1 详细列出匹配分数计算算法的步骤。首先，算法设置划分的初始估计及颜色主题状态的相应最大似然估计；这些被用于设置 \(\hat{s}_0\) 以及 \(\hat{s}_1\) 到 \(\hat{s}_N\) 的初值。在达到收敛或最大迭代次数之前，算法循环遍历头、躯干、下身与包位置，并更新估计 \(\hat{z}_i\)（划分向量中相应的包围框）。仅当算法能在现有估计的局部空间邻域内找到一个使所有隐藏变量的对数似然（包括更新后的颜色主题状态）更高的取值时，位置才被更新。所有更新完成后，最终匹配分数是所得划分分数与组件分数之和。把评分算法修订以适应 8.2.3 节讨论的模型扩展是直截了当的。为纳入性别，我们只需在最终匹配分数上加一项额外项，通过评估公式 (8.17) 中的条件概率，因为该条件概率不依赖于任何隐藏状态的估计。为纳入其他特征原始类型（如边缘），我们把组件分数 \(s_i\) 重定义为每种特征类型的条件概率链上对数似然之和。算法流程保持不变。图 8.12 给出隐藏状态估计的迭代过程示例。在此示例中，观测图像与一个匹配的属性档案配对，使得所得潜状态估计成功反映图像生成。图中展示优化过程中划分估计值的样本，从初始值（最左）到收敛（最右）。注意划分状态起始于训练过程中学习到的所有图像的平均包围框。随着 ICM 优化进展，各个组件位置开始迁移到更好拟合的包围框，更好的拟合等价于划分与最大似然潜主题向量的联合概率的增加。使用该技术，当图像块与属性档案匹配时，估计过程倾向于显著提高最终优化分数（因为算法根据概率模型找到了对数据的良好"解释"）；然而当图像不匹配时，估计过程通常不会显著提高分数。

8.4.1 Search Accuracy

为评估生成模型方法的价值，我们可以把该技术应用于多个视频监控环境中的属性搜索任务。跨一系列搜索请求查看结果并与视频内容的真值比较，可以给我们关于性能的定量与定性认识。本节中我们把所提搜索技术应用于以下两个有代表性的数据源以刻画其性能：

在伦敦 Gatwick 机场采集的两小时监控视频 [8]，分布于一个航站楼内的三个不同位置的摄像机。观测人群密度有显著变化，定期到达的航班造成活动量峰值。在此数据集上以 1 Hz 频率施加 8.1.2 节描述的运动行人检测过程，得到约 14,000 条运动行人检测实例的数据库。
在一个美国主要机场采集的监控视频数据集。该数据集共约五小时视频，来自六个不同的摄像机视角，布置在该机场一个航站楼内。以 1 Hz 频率施加检测过程，得到约 175,000 条运动行人检测实例。

对这些数据集的实验有助于揭示对属性搜索技术实际应用至关重要的两方面性能。第一个是搜索精度，影响操作员在审查结果时能否成功找到嫌疑人。第二个是搜索时延，即所需分数计算的持续时间——该时间必须相对较短以避免操作员启动搜索后长时间等待。

图 8.13 展示搜索结果的示例，使用一个较低特异性的属性档案与一个较高特异性的属性档案。对每个搜索情形，第一行给出按简单（非概率的）颜色匹配方法得到的最佳六条匹配。在这种方法中，图像块所有前景像素的颜色类标签被累加为一个颜色直方图。该直方图基于其与目标直方图（由属性描述中的颜色构成）的相似性打分。换言之，简单方法搜索正确的前景颜色混合而不使用概率模型来考虑图像生成的隐藏状态。从图中可见，该方法通常不能返回对档案的良好匹配，常常选中与检测到的运动行人无关的图像区域。图 8.13 中每个搜索情形的第二行展示使用本章描述的概率生成模型所得的结果。因为模型能够考虑空间排布与颜色及边缘原始特征的组件特定分布等不可观测因子，它在寻找对描述的准确匹配上明显更好。对第一个不太具体的搜索情形，六条最佳结果中有五条是完全匹配，另一条是部分匹配（由其他行人杂波的存在导致）。对第二个更具体的搜索情形，模型返回一条显著匹配（高于某最小阈值得分的唯一结果），它是数据中的唯一正确匹配。定性而言，该比较表明概率生成模型相比简单颜色匹配方法在评估匹配上的价值。然而，这类示例不能给出性能的定量度量。

为获得搜索性能的定量刻画，我们选择在某次机场视频数据采集期间监控的一个特定区域，并标注在固定时间段内发生在该区域的所有行人活动的真值。这一约 50 平方米区域的监控视频中行人高度方向的图像分辨率约为 80 至 120 像素，足以实现准确的运动行人检测。标注通过该区域的每个人的位置与基于属性的外观，得到约 150 个唯一个体的 1000 次帧外观。下面讨论在该数据集上的若干性能指标。检测指标方面，对通过已标注数据集感兴趣区域的每个人，我们计数一次正确检测，如果 8.1.2 节描述的检测算法在被分析视频的至少一帧中标记该人。我们把任何不对应于完整行人的检测计为误报。测试环境中的误报来源包括阴影效应、行人部件与行李车。当我们使用针对拥挤室内环境优化的阈值时，观测到的检测概率为 150 人中的 145 人（约 97%），漏检由持续遮挡或与感兴趣区域的短暂相交造成。相应的误报率约为每 200 秒一次。实践中，检测算法支持良好的搜索能力，因为它在场景中无遮挡的视角下找到几乎每个通过行人的至少一个实例，同时以足够低的速率拉入误报，使其只占检测数据库中记录的较小比例。值得指出的是，检测性能严重依赖于场景的特征，特别是观测人群密度与图像分辨率。外观模型方面，概率外观模型提供了一种机制，对每条图像块描绘具有指定属性集的人的可能性打分。当模型功能正常时，与提供描述匹配的所有行人示例将出现在匹配列表的顶部，列表按似然分数降序排列。我们可以通过在已标注数据集上运行多个样本搜索并比较实际结果与预期结果来评估模型的精度。图 8.14 的图例列出了 11 次此类搜索的属性档案集合，通过从真值标签中随机抽取匹配视频中出现的一个人或多人的描述选出。对每个测试搜索，我们通过改变返回的顶部结果数来绘制一条性能曲线。提高返回结果数会增加找到所有真实匹配的概率，但也会增加误报或返回不完全匹配指定档案的图像块的发生。图 8.14 的纵轴绘制召回率（recall），即搜索返回的所有真实匹配的百分比；横轴绘制返回的误报数，按数据库中误报个体总数归一化。注意按这些指标，对图像块分配随机匹配分数的算法将具有图 8.14 中虚线表示的预期性能。如预期，所有使用所提模型的搜索结果显著优于随机评分基线。但是，根据具体属性档案，错误率存在明显差异。11 个样本搜索中有 5 个（图 8.14 中红线表示）在返回任何误报之前找到所有真实匹配，因此是搜索精度完美的示例。其他搜索则在恢复所有匹配前返回多个误报。更具体的搜索查询，特别是所有行人中只有一个真实匹配的查询，倾向于展示更好的结果，因为这些档案包含最具区分性的信息。更宽泛的描述倾向于在拉入所有真阳性的同时混入一些误报。因为评分算法产生一个与观测概率相关的实值匹配分数，所以误报结果（具有相对较高的分数）仍倾向于与属性档案接近匹配，通常只在某一处与描述有微小偏差。

8.4.2 Search Timing

为具有运营相关性，属性搜索必须在合理时间内执行。因为搜索在每条候选图像块都被赋予一个匹配分数后才完成，执行搜索的时间直接与执行单个匹配分数计算的平均时间相关。该操作必须快速执行，因为一次典型搜索可能涉及来自检测数据库的数万乃至数十万条候选（甚至更多）。虽然算法 8.1 中概述的评分算法被设计为快速收敛到隐藏状态的近似优化，我们可以在该算法的实现中采取以下步骤以确保足够快的计算：

执行一个初步检查以判断表示图像块的特征原始类型是否与属性档案对应预期观测有任何接近。例如如果局部颜色直方图与属性档案指定的任何颜色显著偏离，我们可以自动赋予低匹配，并避免执行隐藏状态优化过程，假设不会有任何隐藏状态取值能产生足够高的匹配分数以向操作员显示。对许多搜索标准，该初步检查把所需的匹配分数计算总数减少了一半以上。
消除对相对昂贵函数的重复评估，如公式 (8.49) 中的对数阶乘。由于在该应用中，对数阶乘只能对 0 到 100 的整数集合求值，提前预计算这些值并存起来在计算上要高效得多。
对优化算法的迭代次数施加合理限制。限制为几次迭代通常足以让估计接近收敛，同时防止对最终匹配分数影响相对较小的多余迭代。

表 8.2 给出两个机场监控数据集上的平均分数计算时间。这些时间在许多属性搜索试验上取平均，因为处理时间部分取决于属性档案。对任一数据集，单次分数计算所需的平均时间约为 50 µs；因此每秒可对多达 20,000 张图像打分。表 8.2 还显示对每个数据集，处理来自一个摄像机视图的一小时检测所需的平均时间。对 Gatwick 数据集，由于行人流量密度较低（因此每小时数据总检测数较少），搜索一摄像机小时的视频耗时不到半秒。对美国机场数据集，由于在相对宽阔的摄像机视图中捕获显著更多的行人，耗时接近每摄像机小时两秒。然而无论哪种情形，评分算法的工作效率都足以在一两分钟内对数十小时的摄像机数据和数百万条记录执行搜索。

8.5 Interactive Search Tool

概率属性图像评估的概念在被纳入交互式搜索能力的一部分时最为有用。本节描述该工具的一种实现并在样本视频数据上展示其功能示例。该工具直接连接到运动行人检测的数据库（随传入视频的分析自动创建），并提供对这些检测进行搜索的方式。

该工具具有以下功能：允许操作员通过图形用户界面输入一组搜索标准，包括属性档案以及搜索的时间与位置约束；检索落在指定时间段与位置约束内的所有检测数据库记录；施加 8.2 节描述的概率模型，对每条记录与指定属性档案的匹配程度打分；把匹配结果按分数降序排列，从数据库中提取前 \(N\) 个匹配（只要匹配分数超过某基线阈值）；使用一种非极大值抑制的形式过滤最高匹配列表，以消除同一行人在连续视频帧中的冗余出现；把顶部匹配作为一组可浏览的图像块显示回操作员；最后，允许操作员通过从顶部匹配集中选择单条图像块来复审相关视频。所得系统为操作员提供了一种有效方式，通过执行一系列搜索与视频复审步骤，交互式地探索设施内观测行人的数据库。

图 8.15 给出搜索工具的截图。启动搜索弹出一个搜索标准输入菜单，分为属性档案区（上半部）与搜索定位区（下半部）。在属性档案区，操作员可以指定菜单中所代表的属性选项的任意子集；操作员未提供的任何输入默认被留为未指定，它们将不参与搜索结果。除属性档案外，操作员选择搜索的开始时间与结束时间，可跨越最多数天的归档视频。操作员也可以选择要搜索的摄像机视图子集，如需要可聚焦于各个摄像机场景内的特定区域（如门口或行人通道）。一旦所有属性与搜索定位标准被输入，搜索过程即启动。完成该处理所需的时间通常至少几秒，并大致按搜索的面积与时间窗以及行人流量密度成比例。

搜索结果界面有三个面板，如图 8.15 右侧所示。第一个面板包含表示对属性搜索条件顶部匹配的若干图像块。虽然这些图像块经过过滤以避免冗余显示，但同一行人仍可能以时间与空间上略有间隔的方式出现多次。操作员可以滚动这些图像块结果并点击任意一个以检索相应的视频内容。第二个面板显示选定匹配被检测到的视频帧，并允许操作员用一组标准播放控制查看视频。第三个面板显示时间线与设施地图，并包含每个顶部匹配的估计时间与位置。除从图像块集合中选择外，操作员还可以通过直接从地图或时间线上选择一条单个检测来检索视频。实践中，没有任何保证所有搜索结果都将是对属性描述的成功匹配。然而由于概率评分过程，那些非完全匹配的结果往往倾向于接近匹配——只在属性档案的一个方面不匹配。也没有保证对分析人员最相关的观测将作为第一条（最高评分）图像块出现，这是由于软件接受的属性输入类型有限或生成式外观模型的局限性。然而，如果有用内容出现在顶部匹配结果中的某处，则操作员浏览一组图像块并聚焦于相关内容通常比手动扫描大量原始视频要容易和快速得多。

8.6 Summary

基于内容描述的视频搜索是对多种监控场景有用的能力。第一，这种能力可用作法证工具，搜索归档视频并恢复与目击者报告或事件调查相关的观测。第二，这种能力可用于监控实时视频流以寻找与给定描述的明显匹配。无论哪种情形，自动化搜索过程允许操作员梳理大量视频数据并把时间与注意力投入到最相关的片段。本章讨论了一种基于人及其远距离可观察的服装与包属性的特定类型的内容搜索。虽然这类视频解释通常能由人类视觉以高精度执行，但自动化此过程是困难的，因为对于给定描述的外观存在多种变化。事实上，对于匹配属性档案的观测，存在许多不同的（在像素值层面的）表现，取决于视角、光照条件、服装构成等因素。基于概率建模方法的解决方案很适合此问题，因为它们解决了由模糊的高层描述引入的观测不确定性。这类模型提供了一种刻画不确定性性质并按解释问题关键潜状态组织其结构的机制。我们回顾了一个生成式外观模型的例子，它定义了像素层观测特征集合与图像生成的隐藏状态集合上的联合概率分布，以属性档案为条件。模型的隐藏状态可以使用近似优化技术快速推断，从而比在评估时不考虑这些状态得到对匹配程度的更准确估计。此外，生成模型的参数可直接从（部分标注的）数据中学习。使用来自若干环境的样本视频的实验性试验证明了使用这种模型的价值。简单颜色匹配方法表现不佳，因为它们未充分考虑观测集合的预期联合分布，使它们易受糟糕的图像解释影响。然而基于概率模型评估的打分在这些试验中工作良好。当与搜索界面配合时，它能在机场的测试视频上实现及时准确的交互式搜索。然而，任何概率视频解释方法的性能都将依赖于被监控场景的特征与视频捕获条件。导致失败的常见挑战包括以下几方面：感兴趣场景组件上的分辨率较差（通常需要数百个像素总量才能解析基于属性的细节）或照明不足以使场景组件与背景具有合理对比。如果必要信息未被监控系统捕获，则无法执行准确的解释；行人密度或遮挡程度高。当摄像机对行人只有严重受阻的视角时，运动行人检测变得困难，这阻碍了对行人观测的综合数据库的创建——搜索需要该数据库。检测在视频描绘通过场景的人流密集体从而拒绝每个行人的清晰视线时尤其成问题。在这些情形下，有时合理做法是依赖同一设施内行人密度更分散的其他位置的视频分析；服装款式或其他外观因子与训练集中所表示的存在显著差异。例如，关于观测特征的预期分布在一定程度上依赖于当地着装风格与天气条件。因为模型与被评估观测之间的不对齐可能导致图像解释性能下降，解决这一问题的一种方法是使用更具代表性的数据集重新执行模型学习过程。大多数挑战可以通过策略性地选择执行视频分析的摄像机视图，或通过精化概率模型结构与参数来应对。最后，本章概述的方法可以扩展到除行人之外的其他场景组件类型的属性搜索问题。对安保人员有用的搜索能力包括基于车辆描述（颜色与类型）、高保真度行李/包/包裹描述，或近距视频中捕捉到的面部属性的搜索能力。在这些情形下，概率模型都可用于在图像解释任务期间有效表示与管理不确定性。

本章个人批注

第 8 章是这本教材从"理论框架"过渡到"工程应用"的第一章。它的位置很有意思——前面 7 章建立了一套完整的形式化体系（MDP → POMDP → Dec-POMDP + 各种推断/学习算法），本章则把 2.3 节的 Dirichlet-多项式共轭结构、6.3 节的隐变量推断方法，串成了一套可部署的视频搜索系统。对我而言，最值得注意的几个点：

生成式模型的"端到端"美学。本章的设计哲学是：与其训练一个判别式分类器（"这个图像块是否匹配属性档案？"），不如定义一个生成式模型（"在给定属性档案的条件下，这个图像块的像素值是如何生成的？"）。后者的优势在于它能自然地容纳隐藏状态（位置、姿态、混合比例），并通过边缘化或最大化这些隐藏状态来得到匹配分数。这是 6.x 章"隐变量推断"在视觉问题上的具体化——它把"像素 → 特征 → 直方图 → 主题 → 属性"的生成链条显式建模。
Dirichlet-多项式共轭的复用。8.2.2 节定义颜色混合 \(\pi_i\) 时，采用了 2.3.2 节介绍的 Dirichlet 先验；然后 8.3.1.2 节做参数学习时，通过边缘化 \(\pi_i\) 得到复合 Dirichlet-多项式（Polya）分布的闭式表达式。这一处理与 2.3 节的概念完全对应，但作者展示了它在图像颜色建模上的具体应用。这一"形式上的一致性"是这本书的一个亮点——它让前面的概率工具得到了具象化的训练。
ICM 的工程取舍。8.3.2 节的隐状态推断用迭代条件模式（ICM）做坐标下降——每个组件依次优化，其他组件固定。这是经典的贪心策略，理论上不保证全局最优，但作者明确说"在实践中通常工作良好"。这种"实用主义"的姿态，与第 4–7 章里动辄讨论 Bellman 最优性、NEXP 复杂度形成鲜明对比。它揭示了：当一个工程问题没有可负担的最优解时，接受一个工程上够用的近似解，比追求理论上最优要实际得多。
"软生物特征"的概念定位。8.1 节开篇就把"属性"称为"软生物特征"（soft biometrics），并明确指出它们"临时且通常不唯一"。这个定位其实是一个重要的工程取舍：与其追求"生物特征"级别的精确身份匹配（要求高质量人脸图像、难在远距监控中实现），不如接受"属性"级别的软匹配（结合时间窗、位置约束、概率评分，最终让人类操作员做最后确认）。这种"机器做粗筛、人类做精筛"的两段式设计在大型监控系统中非常普遍。
检测与评分的解耦。8.1.2 节专门把"检测"与 8.1.3 节的"评分"分离开：检测只关心"哪里有运动行人"，评分才关心"该行人是否匹配属性档案"。这种解耦有明确的工程优势——检测可以离线批处理、并行加速；评分可以针对用户的具体查询实时进行。这也对应了 6.x 章把"观测"和"推断"分开的做法。
失败模式的坦率讨论。8.6 节结尾列出了三种典型失败模式：分辨率差、密度/遮挡高、训练集与实际场景的分布差异。这种坦率是工程导向章节的标志——它不回避"该方法在 X 情形下不工作"的事实。对我而言，这与 7.x 章里专注于"理论上能否求解"形成对比——本章更关注"在 X 场景下部署时，预期性能如何"。这两种视角的结合，是这本教材的一个特色。
一个待深究的问题。8.2.3.1 节的性别评分器把 HOG 特征复用为性别分类的输入——这一招的关键在于 HOG 特征捕捉"人体轮廓"，而"性别"信息一定程度上也编码在轮廓中（发型、体型）。这种"特征复用"在视觉系统中很普遍，但它有局限：当人穿宽松外套时，体型信号被衣服遮蔽；当人戴帽子时，发型信号丢失。该怎么在生成模型里更优雅地处理"特征的部分可观测性"？这是书中没有展开但我觉得值得深究的方向。

与上下章的衔接（一段话）

本章在全书结构中处于"理论篇"向"应用篇"的转折点：前 7 章建立了从单智能体到多智能体的完整决策框架，并把概率建模、不确定性推断、近似算法等技术打磨成熟；本章开始进入"应用篇"，展示这些技术在真实工程问题（监控视频搜索）上的部署。从作者的角度看，本章的 8.2 节是全章核心——它用生成式概率模型把"属性档案"与"像素观测"显式连接，并通过 Dirichlet-多项式共轭结构复用第 2 章的工具；8.3 节展示参数学习与隐状态推断如何在缺乏闭式解时通过 EM/ICM 等近似技术收敛；8.4 节用 Gatwick 与美国机场两个实测数据集给出精度与时延两个维度的性能证据；8.5 节把模型封装到交互式工具中，连接"概率评分"与"人类决策"。作者把 8.2.3 节（模型扩展）单独组织为一节是有意识的——性别、颜色可变性、边缘特征这三种扩展各自对应一种"如何把新信息纳入生成模型"的设计模式，对后续章节（如第 10 章航空防撞中的多特征融合）有方法论上的示范作用。下一章（第 9 章）将进入语音识别的动态模型——它从本章的"视觉外观"转向"音频频谱"，但同样依赖隐藏状态推断与生成式建模；之后第 10 章转向航空防撞中的相遇几何与碰撞避免，是另一个完全不同的应用领域。