跳转至

第八章:概率 Surveillance 视频搜索

书名:Decision Making Under Uncertainty: Theory and Application 作者:Mykel J. Kochenderfer, Jason R. Thornton(本章) 出版社:MIT Press 出版年份:2015 章节主题:基于属性的行人搜索、概率外观模型、隐状态推理与评分算法 前置知识:概率论、贝叶斯推断、生成模型、Dirichlet 分布、多项分布


第一节 —— 章节概述

本章由 Jason R. Thornton 撰写,隶属于 Kochenderfer 所著《不确定性决策:理论与应用》一书的第八章。本章聚焦于概率视频监控搜索(Probabilistic Surveillance Video Search)这一应用问题,具体探讨如何在一个大规模监控视频数据库中,根据目击者或调查人员提供的外观描述(如服装颜色、行李类型等属性信息)自动检索出匹配的行人图像。

全章围绕一个核心应用场景展开:机场 surveillance 视频的 forensic 检索。当调查人员需要从数十小时的视频记录中找出符合某一描述的行人时,人工逐一审查不仅效率低下,而且极易因视觉疲劳而出错。本章提出了一种基于概率生成模型(probabilistic generative model)的属性搜索方法,能够在像素级观测与高层属性描述之间建立桥梁,从而实现对观测图像的准确评分与排序。

本章的结构安排如下:首先介绍基于属性的行人搜索(8.1节),包括应用场景、行人检测与检索评分的基本框架;随后重点阐述概率外观模型(8.2节),从观察到状态、基础模型结构到模型扩展进行了完整推导;接着介绍学习与推理技术(8.3节),涵盖参数学习、隐状态推理与评分算法;最后给出性能评估(8.4节)与交互式搜索工具(8.5节)的描述,并以总结(8.6节)收尾。

从全书的脉络来看,本章是将前面几章的概率建模与决策方法应用于一个具体的视频理解问题。从第三章的效用理论、第五章的近似动态规划,到本章的概率外观模型与推理算法,体现了理论框架向实际问题渗透的过程。


第二节 —— 关键问题与研究动机

8.2.1 生物特征搜索与属性搜索的对立

视频监控中检索目标行人的方法可分为两大类:生物特征搜索(biometric search)和属性搜索(attribute-based search)。生物特征搜索依赖于虹膜、指纹或面部识别等生理特征,需要事先建立被检索者的生物特征模板。然而,在很多实际场景中——尤其是事件发生后的 forensic 调查中——调查人员仅掌握目击者对嫌疑人外观的口头描述,而非生物特征数据。在这种情况下,生物特征方法无从适用,属性搜索便成为了更可行的替代方案。

8.2.2 外观变化的不确定性挑战

属性搜索面临的核心难题在于:即便两个人都属于同一属性描述(如"蓝衬衫黑裤子"),其像素级观测可能差异巨大。这种变化来源于多种因素——姿态、视角、光照、服装款式、人体自然差异等。图 8.1 生动展示了这一现象:同一描述下的多张图像在像素级别几乎没有相似性。因此,一个实用的搜索系统必须能够在低层观测的不确定性与高层语义描述之间建立概率联系

8.2.3 概率建模的优势

传统方法往往依赖简单的颜色直方图匹配——将图像中所有前景像素的颜色类别汇总为一个直方图,与目标描述形成的直方图比较相似度。这类方法缺乏对图像形成过程(image formation)的显式建模,容易被背景噪声、遮挡或局部区域误导。相比之下,概率生成模型能够:

  1. 显式建模隐状态:引入身体部位分割、颜色主题向量等隐变量,对图像形成过程中的关键因素进行编码。
  2. 分解联合概率:通过条件独立性假设,将复杂的高维联合分布分解为一系列更容易处理的条件分布。
  3. 提供统一的评分机制:通过最大化联合似然,为每张图像给出一个量化的匹配分数,直接用于排序。

这一思路与第二章关于概率推断和第三章关于决策理论的内容形成呼应——本章实际上是将概率推断嵌入到一个决策支持系统中:给定属性描述和观测图像,推理出最可能的隐状态组合,并据此评估匹配程度。


第三节 —— 主要公式与推导

8.3.1 匹配分数的最大似然定义

对于给定的属性描述 \(A\) 和图像 chip 观测 \(O\),系统的核心任务是计算一个匹配分数 \(s\)。采用最大似然估计:

\[ s = \max_{H} p(O, H) \tag{8.1} \]

其中 \(H\) 为隐状态集合(包括图像分割 \(Z\) 和颜色混合向量 \(\pi_i\) 等),\(O\) 为观察状态集合(包括属性向量 \(A\) 和颜色直方图 \(Y_i\) 等)。式(8.1)的直觉含义是:寻找对观测数据的"最佳解释"——即是否存在一组隐状态使得该图像在给定属性描述下的生成概率较高。

8.3.2 颜色模型的像素级条件概率

\(X_k\) 为第 \(k\) 个像素在 HSV 颜色空间中的三维值,\(C_k \in \{1, \ldots, 12\}\) 为其对应的颜色类别(12 种感知颜色:白、灰、黑、黄、橙、粉、红、绿、蓝、紫、棕、米色)。在类别 \(i\) 的条件下,像素值的条件概率为准正态密度:

\[ p(X_k \mid C_k = i, \psi_i) = \phi(\psi_i) \exp\left(-\frac{1}{2} d(X_k, \mu_i)^\top \Sigma_i^{-1} d(X_k, \mu_i)\right) \tag{8.2} \]

其中 \(\psi_i\) 包含第 \(i\) 类的均值向量 \(\mu_i\) 和协方差矩阵 \(\Sigma_i\)\(d(\cdot)\) 为针对 HSV 圆柱坐标系的修改差分算子,特别处理了色相轴(hue)的周期性:

\[ d(X_k^{\text{hue}}, \mu_i^{\text{hue}}) = \mod\left(X_k^{\text{hue}} - \mu_i^{\text{hue}} + 0.5, 1\right) - 0.5 \tag{8.3} \]

像素的颜色类别赋值采用最大似然准则:

\[ C_k = \arg\max_i p(X_k \mid C_k = i, \psi_i) \tag{8.4} \]

8.3.3 图像分割先验

图像分割变量 \(Z\) 将图像 chip 划分为身体组件(头部、躯干、下肢)和行李区域。先验分布为:

\[ p(Z \mid A, \theta) = \mathcal{N}(z_{\text{base}} \mid \mu_{\text{base}}, \Sigma_{\text{base}}) \cdot T_{b_t}(z_{\text{bag}}) \tag{8.9} \]

其中 \(z_{\text{base}}\) 包括全身位置 \(z_{\text{body}}\)、头部位置 \(z_{\text{head}}\)、躯干位置 \(z_{\text{torso}}\) 和下肢位置 \(z_{\text{lower}}\),服从截断多元正态分布;\(T_{b_t}\) 为行李位置的查找表,根据行李类型 \(b_t\)(背包、手提行李、滚轮行李)选择相应的核密度估计。

8.3.4 Dirichlet 先验与颜色混合

每个组件 \(i\) 的颜色混合向量 \(\pi_i\)(满足 \(\sum_{k=1}^{N_c} \pi_i(k) = 1\))从 Dirichlet 分布中抽取:

\[ p(\pi_i \mid \omega) = \phi(\omega) \prod_{k=1}^{N_c} \pi_i(k)^{\omega(k) - 1} \tag{8.10} \]

给定属性描述 \(A\) 中第 \(t\) 种颜色,躯干的颜色混合先验为:

\[ p(\pi_{\text{torso}} \mid A, \alpha) = \phi(\alpha(t)) \prod_{k=1}^{N_c} \pi_{\text{torso}}(k)^{\alpha(t)(k) - 1} \tag{8.11} \]

其中 \(\alpha\)\(N_c \times N_c\) 的 Dirichlet 参数矩阵。

8.3.5 颜色直方图的多项分布

在组件 \(i\) 中,第 \(k\) 种颜色的观测计数 \(Y_i(k)\) 服从多项分布:

\[ p(Y_i \mid Z, \pi_i) = \frac{100!}{\prod_{k=1}^{N_c} Y_i(k)!} \prod_{k=1}^{N_c} \pi_i(k)^{Y_i(k)} \tag{8.15} \]

注:此处归一化至 100(即每个直方图的计数总和为 100),以消除图像分辨率的影响。

8.3.6 性别分类器的条件概率

性别分类器输出一个实数值分数 \(G \in [-G_{\max}, G_{\max}]\),条件概率定义为截断指数分布:

\[ p(G \mid A, \lambda) = \phi(\lambda) \cdot e^{-\lambda \cdot m(G, g)} \tag{8.17} \]

其中 \(m(G, g)\) 将分数映射到 \([0, 1]\) 区间:

\[ m(G, g) = \frac{G_{\max} - s(G, g)}{2 \cdot G_{\max}} \tag{8.16} \]

参数 \(\lambda\) 控制指数衰减速率,从而调节性别特征对整体匹配分数的权重。

8.3.7 颜色比例向量的 Dirichlet 参数

当颜色不以离散类别而以 HSV 空间中的具体点给出时,将其投影到 12 个基础感知颜色的混合系数 \(\rho\) 上,相应的 Dirichlet 参数为加权组合:

\[ \alpha(\rho) = \sum_{k=1}^{N_c} \rho(k) \, \alpha(k) \tag{8.18} \]

8.3.8 边缘原语的 Dirichlet-多项模型

类似于颜色主题,每个组件 \(i\) 的边缘观测直方图 \(E_i\) 的生成也采用 Dirichlet-多项结构:

\[ p(\omega_i \mid \beta) = \phi(\beta(i)) \prod_{k=1}^{N_e} \omega_i(k)^{\beta(i)(k) - 1} \tag{8.19} \]
\[ p(E_i \mid Z, \omega_i) = \frac{100!}{\prod_{k=1}^{N_e} \varepsilon(Z, i, k)!} \prod_{k=1}^{N_e} \omega_i(k)^{\varepsilon(Z, i, k)} \tag{8.21} \]

8.3.9 分割参数的 MLE

对于 \(z_{\text{base}\) 部分,最大似然估计为样本均值和样本协方差:

\[ \hat{\mu} = \frac{1}{M} \sum_{j=1}^{M} z_j \tag{8.25} \]
\[ \hat{\Sigma} = \frac{1}{M-1} \sum_{j=1}^{M} (z_j - \hat{\mu})(z_j - \hat{\mu})^\top \tag{8.26} \]

行李位置使用非参数核密度估计:

\[ p(z_{\text{bag}}) = \frac{1}{M_i} \sum_{j=1}^{M_i} \mathcal{K}_G(z_{\text{bag}} - z_j) \tag{8.28} \]

8.3.10 隐状态推理:颜色混合的闭式解

给定分割估计 \(\hat{Z}\),优化每个 \(\pi_i\) 的最大似然估计。代入 Dirichlet 和多项分布的定义并化简,可得闭式解:

\[ \hat{\pi}_i = \left[ \frac{Y_i(1) + \omega_i(1) - 1}{\sum_{k=1}^{N_c} (Y_i(k) + \omega_i(k) - 1)}, \ldots, \frac{Y_i(N_c) + \omega_i(N_c) - 1}{\sum_{k=1}^{N_c} (Y_i(k) + \omega_i(k) - 1)} \right] \tag{8.44} \]

8.3.11 评分算法的对数形式

最终匹配分数定义为最大对数似然:

\[ \hat{s} = \log p(O, \hat{H}) = s_0 + \sum_{i=1}^{N} s_i \tag{8.46} \]

其中分区分数 \(s_0\) 和组件分数 \(s_i\) 分别为:

\[ s_0 = \log \mathcal{N}(\hat{z}_{\text{base}} \mid \mu_{\text{base}}, \Sigma_{\text{base}}) + \log T_{b_t}(\hat{z}_{\text{bag}}) \tag{8.47} \]
\[ s_i = -\sum_{k=1}^{N_c} \log Y_i(k)! + \sum_{k=1}^{N_c} (Y_i(k) + \omega_i(k) - 1) \log \hat{\pi}_i(k) + \phi_i \tag{8.49} \]

第四节 —— 关键算法与建模方法

8.4.1 两阶段搜索框架

整个搜索系统分为检测(detection)与评分(scoring)两个阶段。

检测阶段:采用滑动窗口方法,对每秒一帧的采样视频进行处理。每个候选窗口需要同时满足三个条件:具有人形轮廓特征、符合地面平面约束、包含高比例前景像素(运动区域)。通过这三个判据的组合,实现较为鲁棒的移动行人检测。

评分阶段:将查询属性与检测数据库中的每条记录进行匹配评分,按降序排列后返回 top-N 结果供操作员审查。

8.4.2 生成模型的层次结构

本章提出的概率外观模型是一个典型的层次生成模型(hierarchical generative model),其变量结构如下:

  1. 属性层 \(A\):高层属性描述(性别、头发颜色、躯干颜色、下装颜色、行李类型、行李颜色)。
  2. 分割层 \(Z\):将图像划分为头部、躯干、下肢、行李等组件区域的边界框参数。
  3. 颜色混合层 \(\pi_i\):每个组件的颜色主题向量,服从 Dirichlet 先验。
  4. 观测层 \(Y_i, E_i\):各组件的颜色直方图和边缘直方图。

这种层次结构的核心优势在于:它将"属性描述如何生成一幅图像"这一逆向问题拆解为一系列条件分布的乘积,从而使推理过程变得可以操作。

8.4.3 ICM 优化算法

由于分区变量 \(Z\) 控制直方图形成的选择函数,导致目标函数对 \(Z\) 不可微,因此无法使用基于梯度的优化方法。系统采用迭代条件模态(Iterated Conditional Modes, ICM)算法——一种贪心搜索方法——来近似求解隐状态的最大似然估计。

ICM 的基本流程为:首先将 \(Z\) 初始化为先验均值;然后对每个组件(头、躯干、下肢、行李)依次固定其他组件的位置,在其局部邻域内搜索使联合对数似然增加的位置;若某次迭代中所有组件均无更新,则算法收敛。

8.4.4 评分算法的计算加速

针对实际部署中需要处理数十万条检测记录的需求,评分算法采用了三项加速策略:

  1. 预检查机制:在启动完整的 ICM 优化之前,先比较颜色直方图与属性描述的差异;若差距过大则直接跳过优化(因为不可能达到足够高的分数)。该策略可将需要完整计算的比例降低一半以上。
  2. 查表预计算:将对数阶乘 \(\log k!\)\(k \in \{0, \ldots, 100\}\))预先计算并存储,避免重复计算。
  3. 迭代次数限制:ICM 优化限制在少数几轮迭代内,通常足以接近收敛。

8.4.5 模型扩展机制

基础模型通过以下三种扩展来增强表达能力:

  • 性别扩展:引入基于 HOG 特征训练的性别分类器,输出实数分数 \(G\),通过截断指数分布与属性层连接。
  • 颜色变异性扩展:允许颜色以 HSV 空间中的连续点而非离散类别给出,通过投影到基础颜色集合获得比例向量 \(\rho\),再用于计算 Dirichlet 参数的加权组合。
  • 边缘原语扩展:增加与颜色分支平行的边缘特征分支,使用 Gabor 滤波器提取梯度信息,构建边缘直方图 \(E_i\),同样采用 Dirichlet-多项结构建模。

第五节 —— 主要结论

8.5.1 概率模型显著优于简单颜色匹配

实验表明,在 11 组随机属性查询中,基于概率生成模型的搜索方法在所有情况下均明显优于简单的颜色直方图匹配方法。其中 5 组查询在返回任何假阳性之前即找到了所有真阳性匹配,达到了完美的搜索准确率。更具体的查询(如唯一匹配的属性描述)表现更好,因为它们包含更多的区分信息。

8.5.2 检测性能

在 Gatwick 机场和某美国机场的两个数据集上,移动行人检测的概率约为 97%(150 人中检测到 145 人),假阳性率约为每 200 秒一次。检测性能主要受场景人员密度和图像分辨率影响。

8.5.3 计算效率

单张图像的评分计算时间约为 50–57 微秒,意味着每秒可处理约 20,000 张图像。按摄像头小时计算,Gatwick 数据集每摄像头小时仅需 0.4 秒,美国机场数据集需 1.75 秒。对于覆盖数十小时视频、数百万条记录的搜索任务,总处理时间通常在一两分钟以内。

8.5.4 系统的适用边界

本章明确指出了系统失效的主要条件:分辨率过低(行人高度仅数十像素)、光照不足、高人群密度导致严重遮挡,以及训练集与实际场景的服装风格差异。这些边界条件为后续研究指明了改进方向。


第六节 —— 挑战与开放问题

8.6.1 遮挡与密集人群

当监控场景中人员密集、遮挡严重时,检测算法可能无法为每个人建立独立的数据库记录。当前方法依赖于对每个行人的清晰帧间观测,密集场景会导致检测数据库本身就不完整。此外,行人之间的相互遮挡会干扰颜色直方图的提取,使外观模型的输入质量下降。

8.6.2 训练数据偏差

模型参数(尤其是 Dirichlet 权重和行李位置核密度)直接从标注数据中学习。如果训练数据集与实际部署场景在服装风格、颜色分布或行李类型上存在系统性差异,模型的泛化性能将受到影响。如何在有限标注数据下实现跨场景迁移,仍是一个开放问题。

8.6.3 隐状态空间的表达能力

ICM 算法虽然高效,但本质上是一种贪心近似方法,不保证收敛到全局最优。分区变量 \(Z\) 的高维连续空间与离散组合结构交织,使得全局优化在计算上极为困难。是否有更高效的全局优化策略(如基于采样的方法),值得进一步探索。

8.6.4 多模态与时序信息

当前模型仅处理单帧图像,忽略了视频的时序特性。同一行人在连续帧中的外观变化(姿态、遮挡程度)可能提供额外的匹配依据。如何将时序信息融入概率框架,同时保持推理的可处理性,是一个有待研究的方向。

8.6.5 超越行人:车辆与物体搜索

本章最后指出,同类方法可扩展至车辆属性搜索、高保真行李描述甚至近距面部属性识别。每种扩展都面临独特的挑战——车辆的颜色和类型分布与行人不同,行李的空间分布更加多样化,面部属性的细粒度分类要求更高的图像分辨率。


第七节 —— 个人反思与批判性分析

8.7.1 建模哲学的工程导向

Thornton 在本章展现的建模哲学是典型的工程导向:从实际问题出发,逐步引入必要的模型复杂度。从基础的颜色直方图到隐分区变量再到多特征融合,每一步扩展都有明确的性能动机而非纯理论追求。这种"够用即可"(sufficiency-driven)的建模策略在应用型研究中有其合理性,但也可能导致模型缺乏理论上的优雅性。

8.7.2 生成模型与判别模型的选择

本章坚持采用生成模型(generative model)路线——对"属性描述如何生成像素观测"的完整过程建模。与之对应的是判别模型(discriminative model),后者直接学习从观测到匹配的映射关系,可能在某些任务上更高效。作者选择生成模型的主要论据是:它能够自然地处理隐状态的不确定性,并通过条件分布的分解实现高效的逐组件推理。然而,这一选择在计算上付出了代价——ICM 近似推理的引入本身就是对生成模型难处理性的一种妥协。

笔者认为,一个有趣的比较研究是:将本章的概率生成模型与一个基于深度卷积神经网络的端到端判别方法进行对比。后者在大量标注数据下可能达到更高的准确率,但其决策过程缺乏可解释性,且难以在小样本条件下泛化。两种路线的权衡恰恰体现了不确定性决策中"模型可解释性"与"预测准确性"之间的经典张力。

8.7.3 隐状态设计的工程直觉

将图像分割为头部-躯干-下肢-行李这一设计,更多地来源于工程直觉而非严格的数学推导。这种分割之所以合理,是因为它与人类感知外观的自然方式一致,同时也与属性描述中的各部分相对应。然而,作者并未系统论证为何这些是"充分的"隐状态集合——是否存在尚未建模的关键因素?例如,行人的步态、携带物品的位置(如是否斜挎)都可能影响检索准确率。隐状态空间的工程设计值得更深入的分析。

8.7.4 Dirichlet 先验的局限

Dirichlet 分布作为多项分布的共轭先验,在数学上处理方便,但其对颜色混合分布的建模能力有限。Dirichlet 分布是对称性的(所有颜色类别通过伪计数相互制约),无法表达颜色类别之间更复杂的依赖关系(如某些颜色常同时出现)。如果使用更灵活的非参数贝叶斯模型(如层次 Dirichlet 过程),可能会更好地捕捉真实场景中的颜色变异性。

8.7.5 评分阈值的隐式决策

本章以排序和 top-N 返回为主要输出形式,但并未深入讨论阈值选择这一决策问题——即如何确定一个分数下限,使得低于该值的候选图像自动被排除。这实际上是一个 ROC 曲线分析或 precision-recall 权衡问题,与第三章效用理论的内容密切相关。如果为不同场景设置不同的阈值,则涉及在假阳性代价与假阴性代价之间的显式权衡,这为将本书其他章节的决策理论方法引入留下了空间。

8.7.6 附录:公式汇总

# 名称 形式 物理意义 类型
(8.1) 匹配分数定义 \(s = \max_H p(O, H)\) 隐状态最大化下的联合概率 (T)
(8.2) 像素颜色条件密度 \(p(X_k \mid C_k=i, \psi_i)\) HSV 空间准正态密度 (E)
(8.3) 色相周期差分 \(d(\cdot)\) 处理 hue 轴循环性 (T)
(8.9) 分割先验 \(p(Z \mid A, \theta)\) 截断正态 + 核密度行李 (T)
(8.10) Dirichlet 先验 \(p(\pi_i \mid \omega)\) 颜色混合的先验分布 (T)
(8.11) 颜色条件 Dirichlet \(p(\pi_{\text{torso}} \mid A, \alpha)\) 给定属性的颜色混合先验 (T)
(8.15) 颜色直方图多项分布 \(p(Y_i \mid Z, \pi_i)\) 组件内颜色分布模型 (T)
(8.17) 性别条件概率 \(p(G \mid A, \lambda)\) 截断指数分布 (T)
(8.18) 颜色比例 Dirichlet \(\alpha(\rho)\) 连续颜色的 Dirichlet 混合 (T)
(8.19) 边缘主题 Dirichlet \(p(\omega_i \mid \beta)\) 边缘混合的先验分布 (T)
(8.21) 边缘直方图多项分布 \(p(E_i \mid Z, \omega_i)\) 组件内边缘分布模型 (T)
(8.25) 均值 MLE \(\hat{\mu} = \frac{1}{M}\sum z_j\) 样本均值 (T)
(8.26) 协方差 MLE \(\hat{\Sigma} = \frac{1}{M-1}\sum (z_j-\hat{\mu})(z_j-\hat{\mu})^\top\) 样本协方差 (T)
(8.28) 行李核密度估计 \(p(z_{\text{bag}}) = \frac{1}{M_i}\sum \mathcal{K}_G(z_{\text{bag}} - z_j)\) 非参数密度估计 (E)
(8.44) 颜色混合闭式解 \(\hat{\pi}_i\) 的显式表达式 Dirichlet-多项最大似然估计 (T)
(8.46) 对数匹配分数 \(\hat{s} = s_0 + \sum_{i=1}^N s_i\) 总分数的加和分解 (T)
(8.47) 分区分数 \(s_0 = \log p(\hat{Z} \mid A, \theta)\) 分割先验的对数似然 (T)
(8.49) 组件分数 \(s_i\) 的显式展开 颜色混合与直方图的对数似然 (T)

注:(T)=理论推导,(E)=经验公式


本笔记基于《Decision Making Under Uncertainty: Theory and Application》(Kochenderfer, 2015)第八章内容整理