第三章决策问题

第一部分章节概述

本章由Mykel J. Kochenderfer撰写，隶属于MIT《不确定性决策》一书（第3章）。上一章探讨了不确定性的建模与推理方法，本章则将研究重心转向如何基于概率模型和效用函数做出理性决策。本章专注于单步决策问题，而将序列决策问题的讨论留待下一章展开。

本章的内容结构清晰，主要分为三个大部分：第一节介绍效用理论的基础，阐述理性偏好与效用函数的关系；第二节将贝叶斯网络扩展为决策网络，以图形化方式表达决策问题；第三节简要讨论博弈论在多智能体决策中的应用，涵盖占优策略均衡和纳什均衡等核心概念。

本章的核心结论是：理性决策者应当在概率模型和效用函数的基础上，选择能够最大化期望效用的行动。这一最大期望效用原则（Maximum Expected Utility Principle）是贯穿全书的核心准则。本章还特别指出，效用理论是一种规范性（prescriptive）理论而非描述性（descriptive）理论——它告诉人们应当如何做决策，而非预测人们实际上如何做决策。事实上，Tversky和Kahneman的实验表明，人类的行为往往偏离理性决策的规范。

本章的学习需要以下前置知识：概率论基础（尤其是条件概率和贝叶斯公式），以及上一章介绍的贝叶斯网络基本概念。本章在全书体系中起到承上启下的作用：它将概率论（第二章）与序列决策（第四章）有机联系起来，共同构成不确定性环境下决策理论的完整框架。

第二部分关键问题与研究动机

3.1 核心科学问题

本章围绕以下关键科学问题展开：

问题一：理性偏好应当满足哪些基本约束？ 在对不同结果的偏好比较中，什么样的偏好结构才能称得上是"理性"的？这一问题由von Neumann和Morgenstern在20世纪40年代系统回答，他们提出了四条公理——完备性（Completeness）、传递性（Transitivity）、连续性（Continuity）和独立性（Independence），这四条公理共同构成了理性偏好的基础。

问题二：如何从理性偏好中导出效用函数？ 类似于概率论中从理性信念的约束导出概率测度，效用理论证明了从理性偏好的约束可以导出一个实值效用函数。这引发了一个关键问题：效用函数是否唯一？

问题三：如何量化信息的价值？ 在实际决策中，获取额外信息往往需要付出成本。决策者应当如何判断某一信息是否值得获取？本节引入了信息价值（Value of Information, VOI）的量化方法。

问题四：在多智能体交互环境中如何做出最优决策？ 当存在其他决策者（智能体）时，传统的最大期望效用原则不再直接适用——因为每个智能体的最优行动取决于其他智能体的策略。这一问题需要借助博弈论的工具来回答。

问题五：人类决策行为为何经常偏离理性规范？ Tversky和Kahneman的实验研究表明，人类在面对确定性效应、框架效应等认知偏差时，往往做出违背效用理论公理的选择。这一问题对于构建真正有用的人机交互决策支持系统至关重要。

3.2 研究动机与实际意义

本章的研究动机既具有理论深度，也具有广泛的实际应用价值。在航空Collision Avoidance系统、自动驾驶汽车、医疗诊断决策支持系统等安全关键领域，需要在不确定性环境下做出可靠决策。传统的确定性规则难以应对复杂多变的环境，而基于概率和效用理论的决策框架能够提供更加灵活和鲁棒的解决方案。

此外，理解人类决策行为的非理性特征，对于设计更好的决策支持系统、避免认知偏差带来的危害具有重要意义。特别是在医疗、法律、金融等高风险领域，决策支持系统的设计者必须充分认识到人类偏好的复杂性，才能构建出真正符合用户需求的系统。

第三部分主要公式与推导

3.1 偏好关系与效用函数

偏好运算符定义：

$A \succ B$：我们偏好A胜过B
$A \sim B$：我们对A和B漠不关心（无差异）
$A \succeq B$：我们偏好A胜过B或对二者无差异

Lottery（彩票/抽奖）的表示： 若有一组结果$S_{1:n}$及对应概率$p_{1:n}$，则该彩票表示为：

\[[S_1 : p_1 ; \cdots ; S_n : p_n] \tag{3.1}\]

von Neumann-Morgenstern 公理体系：

完备性（Completeness）：对于任意两个结果A和B，必有$A \succ B$、$B \succ A$或$A \sim B$之一成立。
传递性（Transitivity）：若$A \succeq B$且$B \succeq C$，则$A \succeq C$。
连续性（Continuity）：若$A \succ C \succ B$，则存在概率$p$使得$[A : p; B : 1-p] \sim C$。
独立性（Independence）：若$A \succeq B$，则对任意C和概率$p$，有$[A : p; C : 1-p] \succeq [B : p; C : 1-p]$。

从公理导出效用函数： 上述公理保证了存在一个实值效用函数$U$，使得：

$U(A) > U(B)$ 当且仅当 $A \succ B$
$U(A) = U(B)$ 当且仅当 $A \sim B$

效用的仿射变换不变性： 效用函数在仿射变换下是唯一的——即对于任意$m > 0$和$b$，新效用函数$U'(S) = mU(S) + b$与原$U$诱导的偏好完全相同。这与温度的摄氏度和华氏度表示类似——不同的标度反映的是同一种物理量。

3.2 彩票的效用计算

对于彩票$[S_1 : p_1 ; \cdots ; S_n : p_n]$，其效用为各结果效用的概率加权和：

\[U([S_1 : p_1 ; \cdots ; S_n : p_n]) = \sum_{i=1}^{n} p_i U(S_i) \tag{3.2}\]

以碰撞避免系统为例，定义二元变量$A$（是否告警）和$C$（是否碰撞），效用函数为：

\[U([a^0, c^0 : 0.5; a^1, c^0 : 0.3; a^0, c^1 : 0.1; a^1, c^1 : 0.1]) = 0.5U(a^0, c^0) + 0.3U(a^1, c^0) + 0.1U(a^0, c^1) + 0.1U(a^1, c^1) \tag{3.4}\]

3.3 最大期望效用原理

给定概率模型$P(s' | a, o)$（表示在观察到$o$并采取行动$a$后，世界状态变为$s'$的概率）和效用函数$U(s')$，采取行动$a$的期望效用为：

\[E[U(a | o)] = \sum_{s'} P(s' | a, o) U(s') \tag{3.5}\]

最大期望效用原理指出，理性智能体应选择使期望效用最大化的行动：

\[a^* = \arg\max_{a} E[U(a | o)] \tag{3.6}\]

这是本书的核心公式之一，在后续章节中将反复出现。

3.4 效用归一化与彩票等价

通过设定最佳结果$U(S_\top) = 1$和最差结果$U(S_\bot) = 0$，可得到归一化效用函数。通过彩票等价法确定任意结果$S$的效用：寻找概率$p$使得$S \sim [S_\top : p; S_\bot : 1-p]$，则$U(S) = p$。

3.5 多变量效用函数的加性分解

若$n$个变量的效用函数可加性分解，则：

\[U(x_{1:n}) = \sum_{i=1}^{n} U(x_i) \tag{3.7}\]

这一分解大大减少了需要指定的参数数量——对于$n$个二元变量，原本需要$2^n$个参数，加性分解后仅需$2n$个参数。

3.6 信息的价值（Value of Information）

设$E[U](o)$表示给定观察$o$下最优行动的期望效用。则关于变量$O'$的信息价值为：

\[VOI(O' | o) = \sum_{o'} P(o' | o) E[U](o, o') - E[U](o) \tag{3.14}\]

直观理解：获取$O'$后能带来的期望效用增量。如果获取信息后最优决策不变，则信息价值为零。

3.7 博弈论基础

纯策略与混合策略： 纯策略是确定性选择行动；混合策略则是以一定概率分布选择行动。混合策略$[a_1 : p_1; \cdots; a_n : p_n]$的效用为：

\[U([a_1 : p_1 ; \cdots ; a_n : p_n]) = \sum_{i=1}^{n} p_i U(a_i) \tag{3.15}\]

占优策略均衡： 若某策略$s_i$对所有可能的对手策略都是最优响应，则$s_i$为占优策略，所有智能体都采用占优策略时构成占优策略均衡。

纳什均衡： 策略组合$s_{1:n}$为纳什均衡，当且仅当每个智能体$i$的策略$s_i$是对$s_{-i}$（其他智能体策略）的最优响应。

Logit Level-k模型（行为博弈论）： 该模型假设人类智能体的策略选择服从Logit分布：

\[P(a_i) \propto e^{\lambda U_i(a_i, s_{-i})} \tag{3.16}\]

其中$\lambda$为精度参数（控制对效用差异的敏感度），$k$为理性深度参数（控制推理层级）。

第四部分关键算法与建模方法

3.1 决策网络的构建与评估

决策网络（Decision Network）是对贝叶斯网络的扩展，用于在不确定性环境下表示和求解单步决策问题。决策网络包含三类节点：

机会节点（Chance Node）：对应随机变量，用圆圈表示，与贝叶斯网络中的节点相同。
决策节点（Decision Node）：对应每个待决策变量，用方框表示。
效用节点（Utility Node）：对应加性效用分量，用菱形表示。

节点之间有三种有向边： - 条件边（Conditional Edge）：终止于机会节点，表示该机会节点的不确定性以所有父节点为条件。 - 信息边（Informational Edge）：终止于决策节点，表示决策时已知父节点的值（通常以虚线表示）。 - 功能边（Functional Edge）：终止于效用节点，表示效用节点由其父节点决定。

决策网络的评估步骤：

实例化行动节点和已观察的机会节点；
应用推理算法计算效用节点父节点的后验概率分布；
仅对效用节点的父节点实例化求和，而非所有变量；
选择期望效用最高的行动。

对于诊断测试决策网络示例（图3.3），给定第一次测试结果$o_{11}$为阳性，计算：

\[EU(t^1 | o_{11}) = \sum_{d} P(d | t^1, o_{11}) U(t^1, d) \tag{3.13}\]

其中$d$表示疾病状态（存在或不存在）。

3.2 信息价值的顺序贪婪选择

利用信息价值选择观察变量的贪婪算法流程：

计算所有未观察变量的信息价值；
选择信息价值最高（或信息价值减去获取成本后的净价值最高）的变量进行观察；
重复上述过程，直到没有变量的净信息价值为正；
执行最优行动。

需要注意的是，这种贪婪方法是一种启发式方法，不一定能够得到全局最优的观察序列。真正的最优观察序列需要采用后续章节介绍的序列决策技术来确定。

3.3 决策网络的构建流程

构建决策网络可分为以下步骤：

识别行动空间：确定所有可能的行动，并考虑是否需要将行动空间分解为多个决策变量。
识别相关变量：区分已观察变量和未观察变量，建立变量列表。
确定变量间关系：利用专家知识、数据学习或二者结合的方式，确定条件概率分布。
选择概率模型：离散变量使用表格表示；连续变量可采用线性高斯模型等参数模型。
引入效用节点：添加功能边，确定效用函数的参数（通过偏好提取或专家调参）。
验证与迭代：对比决策网络推荐行动与人类专家的决策，迭代修改模型。

3.4 博弈论中的求解方法

占优策略均衡的求解： 直接检查每个智能体是否存在对所有对手策略都是最优响应的策略。若存在，则占优策略均衡就是所有占优策略的组合。囚徒困境就是典型的占优策略均衡例子——双方都选择"招供"构成占优策略均衡，尽管双方都"拒绝"能带来更好的结果。

纳什均衡的求解： 对于一般博弈，纳什均衡的求解是计算复杂度极高的PPAD完全问题，目前没有已知的多项式时间算法。对于双矩阵博弈等特殊情形，可通过枚举或线性规划方法求解。

Logit Level-k模型的计算： 给定参数$\lambda$和$k$，Level-0智能体均匀随机选择行动；Level-k智能体假设对手采用Level-(k-1)策略，然后根据公式(3.16)的Logit分布选择行动。

第五部分主要结论

本章建立了不确定性环境下理性决策的完整理论框架，主要结论如下：

结论一：理性偏好与效用函数的存在性。 von Neumann-Morgenstern公理体系（完备性、传递性、连续性、独立性）是从理性偏好约束中导出实值效用函数的充分条件。效用函数在仿射变换下唯一确定，这意味着效用的绝对数值本身并无物理意义，重要的只是偏好顺序。

结论二：最大期望效用原理是理性决策的核心准则。 给定概率模型和效用函数，理性智能体的最优行动是使期望效用最大化的行动。这一原理将概率论（处理不确定性）与效用理论（处理偏好）完美结合。

结论三：决策网络是表示和求解单步决策问题的有效工具。 决策网络通过引入决策节点和效用节点，将贝叶斯网络扩展为能够直接支持决策推理的图形模型。利用概率图的模块化特性，可以高效地计算最优决策。

结论四：信息价值提供了量化观察价值的统一框架。 通过比较获取信息前后的期望效用，可以精确判断某一信息是否值得获取。这一概念对于设计高效的主动感知系统具有重要意义。

结论五：博弈论扩展了决策理论到多智能体场景。 占优策略均衡和纳什均衡提供了分析多智能体交互的不同均衡概念。行为博弈论（如Logit Level-k模型）则给出了更接近人类实际行为的建模方法。

结论六：人类决策行为系统性地偏离理性规范。 Tversky和Kahneman的实验表明，人类在确定性效应、框架效应等方面存在系统性认知偏差。这一发现对于构建人机协同决策系统具有重要的警示意义。

第六部分挑战与开放问题

6.1 效用函数获取的困难

尽管效用理论在理论上优美而完整，但从实际人类那里提取可靠效用函数面临巨大挑战。人类偏好在很多情况下是非理性的（违背von Neumann-Morgenstern公理），而且可能不一致、不稳定甚至自相矛盾。如何从存在认知偏差的人类那里提取"真实"偏好，并将其用于决策支持系统，是一个尚未完全解决的问题。

6.2 纳什均衡的计算复杂性

虽然纳什证明了每个有限博弈至少存在一个纳什均衡，但寻找这一均衡的计算复杂性属于PPAD完全类——这意味着目前没有已知的多项式时间算法。对于大规模博弈（如涉及大量智能体或策略的博弈），精确求解纳什均衡在计算上可能是不可行的。

6.3 决策网络结构学习的挑战

在实际应用中，决策网络的结构和参数往往需要从数据中学习。然而，决策网络涉及行动变量和效用变量，这与纯预测性的贝叶斯网络有本质不同。如何在存在内生性（行动变量影响环境状态）的情况下学习决策网络结构，是一个具有挑战性的问题。

6.4 贪婪信息获取的次优性

虽然信息价值的贪婪选择方法在实际中广泛应用，但它不能保证获得全局最优的观察序列。设计能够保证近似最优的序列观察策略，是未来研究的一个方向。

6.5 描述性理论与规范性理论的差距

效用理论作为规范性理论，告诉决策者"应当"如何做决策，但并不描述决策者实际上如何做决策。行为博弈论虽然提供了更接近人类行为的描述性模型，但目前仍缺乏像效用理论那样统一、严密的公理体系。如何弥合这一理论与实践之间的鸿沟，是一个持续的挑战。

第七部分个人思考与批判性分析

7.1 对最大期望效用原理的思考

最大期望效用原理是本书的灵魂，它将概率论和效用理论完美融合。然而，这一原理的有效性建立在两个关键假设之上：（1）概率模型正确描述了环境的不确定性；（2）效用函数准确反映了决策者的真实偏好。在实践中，这两个假设都难以完全满足。

特别值得思考的是，概率模型本身往往是从有限数据中学习得到的，天然带有模型不确定性（model uncertainty）。在这种双重不确定性下，简单的最大化期望效用可能并非最优策略。这引出了一个重要的理论延伸——鲁棒决策理论和贝叶斯决策理论如何处理模型不确定性。

7.2 效用函数的仿射不变性之深层含义

效用函数在仿射变换下的不变性是一个看似简单却含义深刻的结论。它告诉我们，理性决策的关键不在于效用的绝对数值，而在于偏好顺序。然而，在实际系统设计中，效用函数的归一化处理可能会隐藏一些重要信息。例如，在碰撞避免系统中，将最坏结果归一化为0、最佳结果归一化为1，实际上隐含地假设了效用函数是"有界"的——如果决策者对某些结果（如核战争）的效用是无界的，这一归一化就不合适。

7.3 行为博弈论的现实意义

本书对行为博弈论的介绍虽然篇幅不长，但揭示了一个重要的现实：纯粹的纳什均衡分析在很多实际场景中并不够用。以旅行者困境（Traveler's Dilemma）为例：纳什均衡预测两个旅行者都会选择$2的最低赔偿额，但实际人类被试普遍选择$97-$100的高额赔偿。这一巨大差距说明，建立在对完全理性假设基础上的博弈论分析，可能与实际情况相差甚远。

Logit Level-k模型提供了一种有价值的替代方案——它假设人类智能体的理性深度是有限的（Level-k），而且在选择时会犯错误（由$\lambda$参数控制）。这种"有限理性"的建模思路，在构建需要与人类交互的决策支持系统时尤为重要。

7.4 对规范性vs描述性理论差异的认识

本章的一个重要贡献是清晰地区分了规范性理论和描述性理论。效用理论是规范性理论——它定义的是"理性"意味着什么，而不关心人类实际上如何做决策。这一区分对于工程实践具有重要意义：当我们构建一个决策支持系统时，我们的目标不是模拟人类的实际决策过程，而是引导用户做出更好的（即更理性的）决策。

然而，这里存在一个微妙的问题：如果人类用户最终不接受系统推荐的最优决策（因为它与人类直觉不符），那么系统的实际价值就会大打折扣。这就要求决策支持系统的设计者，在规范性最优和人类可接受性之间找到平衡。

7.5 对未来研究方向的展望

本章留下了一些开放性问题，这些问题在后续章节中会逐步展开：

序列决策问题：本章只讨论了单步决策，而实际中的很多问题涉及多步序列决策。下一章将介绍的马尔可夫决策过程（MDP）是对这一问题的系统化处理。
多目标效用函数：当决策涉及多个相互冲突的目标时，如何构建和分解效用函数是一个重要的未解问题。本章提到的加性分解只是众多可能分解方式中的一种。
鲁棒决策：如何在模型不确定的情况下做出稳健的决策？这涉及到鲁棒优化和贝叶斯方法的结合。
人机协作决策：如何设计决策支持系统，使其既能利用效用理论的规范性力量，又能适应人类的认知局限性？

7.6 对工程实践的启示

从工程实践的角度看，本章提供的框架（概率模型 + 效用函数 + 最大期望效用原则）为构建安全关键的自主系统提供了坚实的理论基础。TCAS（空中碰撞避免系统）的设计就是一个成功案例——它将碰撞风险建模为概率，将各种结果的"成本"建模为效用，然后通过最大化期望效用来决定是否发出告警以及如何告警。

然而，在将这一框架应用于其他领域时，需要特别注意：（1）效用函数的构建必须经过严格的偏好提取验证；（2）概率模型的准确性需要持续监测和更新；（3）决策网络的设计需要与领域专家密切合作迭代。

公式汇总

编号	名称	形式	物理意义	类型
(3.1)	彩票表示	$[S_1 : p_1 ; \cdots ; S_n : p_n]$	一组概率加权的可能结果	(T)
(3.2)	彩票效用	$U([S_1 : p_1 ; \cdots ; S_n : p_n]) = \sum_i p_i U(S_i)$	效用的概率加权和	(T)
(3.5)	期望效用	$E[U(a	o)] = \sum_{s'} P(s'	a, o) U(s')$
(3.6)	最大期望效用原理	$a^* = \arg\max_a E[U(a	o)]$	最优行动的选取准则
(3.7)	加性效用分解	$U(x_{1:n}) = \sum_i U(x_i)$	多变量效用的加性分解条件	(T)
(3.14)	信息价值	$VOI(O'	o) = \sum_{o'} P(o'	o) EU - EU$
(3.15)	混合策略效用	$U([a_1 : p_1 ; \cdots ; a_n : p_n]) = \sum_i p_i U(a_i)$	概率策略下效用的加权和	(T)
(3.16)	Logit选择模型	$P(a_i) \propto e^{\lambda U_i(a_i, s_{-i})}$	Level-k模型中的策略选择概率	(T)

注：(T)=理论推导公式

延伸阅读建议

von Neumann, J. and Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.（原文参考文献[3]）
Kahneman, D. and Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica, 47(2), 263-292.（原文参考文献[10]）
Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton University Press.（原文参考文献[24]）
Russell, S. and Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th ed.). Chapter 16-18.（原文参考文献[6]的延伸阅读）

本章笔记基于《Decision Making Under Uncertainty: Theory and Application》（Kochenderfer, 2015）第三章内容整理

编号	名称	形式	物理意义	类型
(3.1)	彩票表示	\([S_1 : p_1 ; \cdots ; S_n : p_n]\)	一组概率加权的可能结果	(T)
(3.2)	彩票效用	\(U([S_1 : p_1 ; \cdots ; S_n : p_n]) = \sum_i p_i U(S_i)\)	效用的概率加权和	(T)
(3.5)	期望效用	$E[U(a	o)] = \sum_{s'} P(s'	a, o) U(s')$
(3.6)	最大期望效用原理	$a^* = \arg\max_a E[U(a	o)]$	最优行动的选取准则
(3.7)	加性效用分解	\(U(x_{1:n}) = \sum_i U(x_i)\)	多变量效用的加性分解条件	(T)
(3.14)	信息价值	$VOI(O'	o) = \sum_{o'} P(o'	o) EU - EU$
(3.15)	混合策略效用	\(U([a_1 : p_1 ; \cdots ; a_n : p_n]) = \sum_i p_i U(a_i)\)	概率策略下效用的加权和	(T)
(3.16)	Logit选择模型	\(P(a_i) \propto e^{\lambda U_i(a_i, s_{-i})}\)	Level-k模型中的策略选择概率	(T)

第三章 决策问题

第一部分 章节概述

第二部分 关键问题与研究动机