第五章 模型不确定性
第一部分 章节概述
本章讨论了在模型未知情况下的序贯决策问题。在前一章(第四章)中,我们假设马尔可夫决策过程(MDP)的转移概率和奖励函数是已知的。然而,在许多实际问题中,智能体并不知道环境的动态特性和奖励机制,必须通过与环境的交互经验来学习如何行动。通过观察其动作所导致的状态转移和奖励反馈,智能体需要选择能够最大化长期累积奖励的动作。
本章的核心主题是强化学习(Reinforcement Learning),涵盖了处理模型不确定性的三个关键挑战:
第一个挑战是探索与利用的平衡问题。智能体必须在充分探索环境以获取更多知识(探索),和利用已有知识来获取最大化奖励(利用)之间找到平衡。如果持续进行探索,则可以建立更全面的环境模型,但会牺牲部分奖励;如果仅利用当前认为最优的策略而从不尝试新策略,则可能错过更好的策略。
第二个挑战是信用分配问题。奖励往往在做出重要决策之后很久才收到,因此需要将后期奖励的"功劳"分配给早期的决策。这一问题在稀疏奖励的环境中尤为突出。
第三个挑战是泛化问题。由于智能体与环境的交互经验有限,必须能够将已学到的知识推广到尚未访问过的状态。
本章依次介绍了多臂老虎机问题、基于模型的方法(包括最大似然估计和贝叶斯方法)、无模型方法(Q学习、Sarsa、资格迹)以及泛化技术(局部近似、全局近似、状态抽象)。
本章对应的前置知识包括:概率论基础(第二章的贝塔分布和狄利克雷分布)、马尔可夫决策过程理论(第四章的贝尔曼方程、值迭代和策略迭代)以及优化基础。
第二部分 关键问题与研究动机
5.1 核心科学问题
本章围绕以下五个核心科学问题展开:
问题一:如何在不确定环境下平衡探索与利用?
这是强化学习中最基本的问题之一。在模型未知的环境中,智能体面临一个基本的矛盾:如果只探索,则无法获得高奖励;如果只利用已知信息,则可能错过更好的策略。多臂老虎机问题是这一问题的最简抽象。
问题二:如何表示和更新对环境模型的信念?
当环境模型未知时,智能体需要维护关于模型参数的信念分布。贝叶斯方法提供了一种原则性的框架来表示和更新这些信念。关键问题包括:如何选择合适的先验分布?如何高效地进行后验更新?
问题三:如何处理延迟奖励的信用分配?
在序贯决策问题中,动作的影响可能需要很多步之后才能显现。例如,在棋类游戏中,当前这一步的效果可能要到几十步之后才能判断。如何将最终的奖励信号有效地传播回之前的决策是一个核心挑战。
问题四:如何在有限经验下高效学习?
直接在每个状态-动作对上学习值函数是不现实的,因为状态空间可能非常大。必须使用某种形式的函数近似来泛化知识。
问题五:如何设计计算效率高的学习算法?
实际应用中,学习必须在有限计算资源下进行。需要在学习速度和计算成本之间找到平衡。
5.2 研究动机与历史背景
多臂老虎机问题的研究历史可追溯至二战期间。据Peter Whittle所述,"试图解决[老虎机问题]的努力耗尽了盟军分析家的精力和心智,以至于有人建议将这个问题扔到德国去,作为最终的知识破坏工具"。这说明这一问题的难度。
本章的研究动机来自于实际应用的广泛需求,包括:
- 临床试验设计:如何在评估新药效果和为患者提供最佳治疗之间平衡
- 自适应网络路由:如何在网络中动态选择最优路由
- 推荐系统:如何平衡推荐已知受欢迎内容和探索新内容的用户
- 机器人控制:如何在未知环境中学习有效行为
第三部分 主要公式与推导
5.1 探索与利用
5.1.2 贝叶斯模型估计
对于臂\(i\)的获胜概率\(\theta_i\),我们使用贝塔分布作为后验分布。先验为均匀分布,即\(\text{Beta}(1,1)\)。设\(w_i\)为获胜次数,\(\ell_i\)为失败次数,则后验分布为\(\text{Beta}(w_i + 1, \ell_i + 1)\)。
后验获胜概率为:
示例:两臂老虎机,拉6次后,第一臂:1胜0负(\(\theta_1 \sim \text{Beta}(2,1)\)),第二臂:4胜1负(\(\theta_2 \sim \text{Beta}(5,2)\))。
最大似然估计:\(\hat{\theta}_1 = 1\),\(\hat{\theta}_2 = 4/5 = 0.8\)。
贝叶斯后验概率:\(\rho_1 = 2/3 \approx 0.67\),\(\rho_2 = 5/7 \approx 0.71\)。因此,只剩一次拉杆机会时,应选择第二臂。
5.1.4 最优探索策略
信念状态由计数\(w_1, \ell_1, \ldots, w_n, \ell_n\)表示。这\(2n\)个数字可以表示对\(\rho_{1:n}\)的连续概率分布。
最优价值函数:
最优策略:
\(Q^*\)的分解:
第一项对应臂\(i\)获胜的情况,第二项对应失败的情况。
5.2 最大似然基于模型的方法
最大似然估计
最大似然估计的转移概率和奖励函数:
其中\(N(s,a)\)是从状态\(s\)执行动作\(a\)的总次数,\(N(s,a,s')\)是从\((s,a)\)转移到\(s'\)的次数,\(\rho(s,a)\)是累计奖励。
Dyna算法中的随机化更新
5.3 贝叶斯基于模型的方法
5.3.2 模型参数的先验与后验
对离散状态空间,使用狄利克雷先验:
\(t\)步之后的后验:
5.3.3 贝叶斯自适应MDP
状态空间为\(S \times B\),其中\(B\)是所有可能的信念空间。
转移函数:
其中\(\tau\)是信念更新函数,\(\delta\)是克罗内克\(\delta\)函数。
边缘转移概率需要积分:
广义贝尔曼方程
5.4 无模型方法
5.4.1 增量估计
样本均值:
增量更新形式:
学习率形式:
其中\((x - \hat{x})\)称为时序差分误差(TD误差)。
5.4.2 Q学习
原始贝尔曼方程:
增量更新规则:
5.4.3 Sarsa
Sarsa使用实际执行的下一个动作\(a_{t+1}\),而Q学习使用\(\arg\max\)。
5.4.4 资格迹
TD误差:
更新后衰减资格迹:\(N(s, a) \leftarrow \gamma \lambda N(s, a)\)。
5.5 泛化
5.5.1 局部近似
线性近似:
向量形式:
更新规则:
5.5.2 全局近似
感知机模型:
感知机Q学习:
5.5.3 抽象方法
叶子节点的q值计算:
分裂标准是最小化叶子节点的方差。
第四部分 关键算法与建模方法
5.1 最大似然模型强化学习(Algorithm 5.1)
算法流程:
- 初始化:设置初始状态\(s_0\),初始化计数\(N\)、奖励和\(\rho\)、\(Q\)表
- 主循环:
- 根据探索策略选择动作\(a_t\)
- 观察新状态\(s_{t+1}\)和奖励\(r_t\)
- 更新计数:\(N(s_t, a_t, s_{t+1}) \leftarrow N(s_t, a_t, s_{t+1}) + 1\)
- 更新奖励和:\(\rho(s_t, a_t) \leftarrow \rho(s_t, a_t) + r_t\)
- 基于新的\(T\)和\(R\)估计更新\(Q\)
- 时间步递增
计算成本:每次更新都需要解决完整的MDP,复杂度为\(O(|S|^3)\)(值迭代)。
5.2 优先级扫描(Prioritized Sweeping, Algorithm 5.2)
核心思想:不是均匀地更新所有状态,而是优先更新那些变化最大的状态。
算法流程:
- 将当前状态\(s\)的优先级设为无穷大
- 当优先级队列非空时:
- 取出最高优先级的状态\(s\)
- 更新\(U(s)\):\(U(s) \leftarrow \max_a [R(s,a) + \gamma \sum_{s'} T(s'|s,a)U(s')]\)
- 对前驱状态\((s', a') \in \text{pred}(s)\),更新其优先级:\(p = T(s|s',a') \times |U(s) - u|\)
优势:相比Dyna的随机更新,优先级扫描更有针对性,收敛更快。
5.3 Thompson采样
算法思想:
- 从当前信念分布\(b_t\)中采样一个模型参数\(\theta\)
- 假设\(\theta\)是真模型,使用动态规划求解最优策略
- 下一个时间步更新信念,重复过程
优势:不需要手工设置探索参数。
劣势:计算成本高(每步需要重新求解MDP),且已被证明存在过度探索的问题。
5.4 Q学习(Algorithm 5.3)
核心更新:
特点:
- 异策略(off-policy):学习最优策略而使用\(\epsilon\)-greedy等探索策略
- 收敛性:在满足一定条件(所有状态-动作对无限次访问,学习率衰减)下收敛到最优\(Q^*\)
5.5 Sarsa(Algorithm 5.3的变体)
核心更新:
特点:
- 同策略(on-policy):使用与执行相同的策略进行学习
- 更保守:学习过程中策略变化时\(Q\)值也会相应调整
5.6 Sarsa(λ)(Algorithm 5.4)
资格迹机制:
- 维护一个\(N(s,a)\)来表示对该状态-动作对的"资格"
- 每次访问时增加资格:\(N(s_t, a_t) \leftarrow N(s_t, a_t) + 1\)
- 每步衰减所有资格:\(N(s,a) \leftarrow \gamma\lambda N(s,a)\)
- 更新时对所有状态-动作对进行更新,资格越高的更新幅度越大
参数\(\lambda\)的作用:
- \(\lambda = 0\):退化为单步Sarsa
- \(\lambda = 1\):信用传播到起始状态
5.7 线性近似Q学习(Algorithm 5.5)
核心思想:使用线性函数近似\(Q(s,a) = \theta^\top \beta(s,a)\)
更新规则:
5.8 感知机和神经网络近似
感知机(单层线性网络):只能表示线性函数
神经网络(多层感知机):通过隐藏层可以表示非线性函数,使用反向传播调整权重。
第五部分 主要结论
5.1 探索与利用平衡
-
\(\epsilon\)-greedy方法:以\(\epsilon\)概率随机选择动作,\(1-\epsilon\)概率选择当前最优动作。简单但不能有效利用不确定性信息。
-
Softmax方法:使用logit模型,臂\(i\)被选中概率与\(\exp(\lambda \rho_i)\)成正比。\(\lambda\)控制探索程度。
-
区间探索:计算置信区间,选择上界最高的臂。
-
Gittins分配指数:对于无限视野折扣问题,可以得到最优策略,但计算复杂度高。
5.2 基于模型 vs 无模型方法
基于模型的方法:
- 优点:样本效率高,可以利用模型进行规划
- 缺点:需要显式构建模型,可能有模型偏差
无模型方法:
- 优点:简单,不需要显式建模
- 缺点:样本效率低,需要大量交互
5.3 信用分配
- 单步TD方法(Q学习、Sarsa):只更新最近的状态-动作对
- 资格迹方法:通过指数衰减将信用传播到早期状态,有效加速学习
5.4 泛化技术
- 局部近似:依赖距离度量,适合状态空间平滑的场景
- 全局近似(神经网络):不依赖距离,可以学习复杂模式
- 状态抽象:通过合并相似状态减少计算量
第六部分 挑战与开放问题
6.1 探索-利用平衡的固有权衡
尽管存在Gittins分配指数等理论最优方法,但它们通常需要计算指数级别的状态空间。对于大规模问题,仍需依赖启发式方法。如何设计既理论上有保证又计算可行的探索策略仍是开放问题。
6.2 贝叶斯自适应MDP的计算困难
贝叶斯自适应MDP的状态空间是连续的(信念空间),直接应用值迭代或策略迭代不现实。的主要研究方向包括:
- 近似后验表示(如高斯过程、粒子滤波)
- 离线规划方法(如稀疏采样、Monte Carlo树搜索)
- 层次化方法
6.3 函数近似的收敛性
使用函数近似时,Q学习的收敛性不再有保证。特别是使用非线性函数近似(如深度神经网络)时,学习可能不稳定或发散。深度Q网络(DQN)通过经验回放和目标网络来缓解这一问题,但理论保证仍然有限。
6.4 稀疏奖励环境
在许多实际应用中,奖励是稀疏的——大多数状态-动作对的奖励为0或负数,只有少数关键转换有正奖励。如何高效地在稀疏奖励环境下学习是一个重要挑战。内在动机(intrinsic motivation)和分层强化学习是活跃的研究方向。
6.5 部分可观测性
本章假设状态完全可观测。在部分可观测的MDP(POMDP)中,智能体只能观察到与状态相关的信号。处理POMDP需要额外的记忆机制,将在下一章讨论。
6.6 多智能体学习
本章只考虑单智能体学习。在多智能体系统中,其他智能体的存在使环境变成非静态的,需要额外的理论框架。
第七部分 个人思考与批判性分析
7.1 探索策略的哲学思考
探索与利用的平衡反映了人工智能中的一个根本性权衡:确定性 vs 灵活性。
完全利用已知策略会导致"局部最优陷阱"——智能体可能永远无法发现更好的策略。这类似于人类生活中的"舒适区"问题:停留在已知的、确定的路径上可能获得稳定的回报,但也可能错过更好的机会。
从工程角度看,\(\epsilon\)-greedy的简洁性使其成为实际应用的首选。但这种简单的随机探索是否真的高效?本书提到的Softmax和区间探索方法实际上利用了更多的不确定性信息,理论上应该更高效。
7.2 贝叶斯方法的优势与局限
贝叶斯方法在处理模型不确定性时具有原则性的优势:它提供了一个统一的框架来表示和更新信念,不需要手工设计探索参数。
然而,贝叶斯方法也有明显的局限:
- 计算复杂度:精确的贝叶斯推理通常是不可行的,需要近似方法
- 先验选择:结果对先验敏感,且先验选择往往缺乏客观标准
- 过度探索:如Thompson采样被证明存在过度探索问题
作者在书中提到"虽然动态规划解是最优的,但信念状态的数量——进而所需的计算和内存——是指数级的"。这揭示了理论与实践之间的巨大鸿沟。
7.3 Q学习 vs Sarsa的选择
Q学习是异策略算法,可以使用\(\epsilon\)-greedy等探索策略同时学习最优策略;Sarsa是同策略算法,学习的是当前策略下的值函数。
从收敛速度看:
- Q学习可能收敛更快,因为它直接学习最优策略
- Sarsa更保守,在学习过程中可能更稳定
从实际应用看,如果探索策略接近贪婪,Q学习和Sarsa表现相近;如果探索策略随机性大,Sarsa可能更合适。
7.4 资格迹的直观理解
资格迹机制启发自神经科学的"赫布定律"——同时激活的神经元连接会加强。在强化学习中,资格迹实现了一种"延迟的信用分配":如果一个状态-动作对最近被激活(参与决策),即使当前的TD误差来自其他状态,它也会被更新。
\(\lambda\)参数控制信用的"传播距离":
- \(\lambda = 0\):只有直接前驱被更新
- \(\lambda = 1\):信用传播到所有历史状态
这种机制大大加速了在稀疏奖励环境中的学习,但需要额外的计算和内存。
7.5 泛化方法的权衡
表格型表示是理想的选择(如果可行),因为它能准确表示每个状态-动作对的值。但在大型状态空间中这是不现实的。
局部近似的优缺点:
- 优点:解释性强,计算效率高
- 缺点:依赖距离度量,无法捕捉长程依赖
全局近似(神经网络)的优缺点:
- 优点:可以学习复杂模式,表达能力强
- 缺点:解释性差,可能不稳定,需要大量数据
状态抽象提供了一种减少状态空间大小的方法,但抽象的质量直接影响学习效果。自动发现好的抽象是强化学习中的一个重要开放问题。
7.6 与现代深度强化学习的联系
本章介绍的Q学习、神经网络近似等方法在2013年DQN(Deep Q-Network)论文中得到了进一步发展。DQN使用深度卷积网络作为函数近似器,并引入经验回放和目标网络来稳定学习。
值得注意的是,虽然深度强化学习在Atari游戏等任务上取得了突破性进展,但其样本效率仍然很低——这与本章讨论的问题一脉相承。
7.7 值得进一步探索的方向
- PAC-MDP理论:研究在多长时间内可以以高概率学到接近最优的策略
- 内在动机强化学习:通过好奇心驱动等机制解决稀疏奖励问题
- 元学习:学习如何学习,快速适应新任务
- 分层强化学习:通过多层次抽象简化学习
公式汇总
| 编号 | 名称 | 形式 | 物理意义 | 类型 |
|---|---|---|---|---|
| (5.1) | 后验获胜概率 | \(\rho_i = \frac{w_i + 1}{w_i + \ell_i + 2}\) | 贝塔分布后验均值 | (T) |
| (5.4) | 最优价值函数 | \(U^* = \max_i Q^*\) | 信念状态下的最优期望回报 | (T) |
| (5.6) | Q函数分解 | 获胜/失败加权和 | 贝尔曼方程的期望形式 | (T) |
| (5.8) | 最大似然转移 | $\hat{T}(s' | s,a) = N(s,a,s')/N(s,a)$ | 经验转移频率 |
| (5.9) | 最大似然奖励 | \(\hat{R}(s,a) = \rho(s,a)/N(s,a)\) | 经验平均奖励 | (E) |
| (5.10) | Dyna更新 | \(Q \leftarrow R + \gamma \sum T \max Q'\) | 模型基础的TD更新 | (T) |
| (5.12) | Dirichlet先验 | \(b_0(\theta) = \prod \text{Dir}(\theta\|\alpha)\) | 模型参数信念 | (T) |
| (5.13) | Dirichlet后验 | \(b_t(\theta) = \prod \text{Dir}(\theta\|\alpha+m)\) | 更新后信念 | (T) |
| (5.17) | 广义贝尔曼方程 | \(U^* = \max_a [R + \gamma \sum P U^*]\) | BAMDP的最优方程 | (T) |
| (5.21) | 增量估计 | \(\hat{x} \leftarrow \hat{x} + \alpha(x - \hat{x})\) | 随机梯度下降形式 | (T) |
| (5.24) | Q学习更新 | \(Q \leftarrow Q + \alpha(r + \gamma \max Q' - Q)\) | 异策略TD学习 | (T) |
| (5.25) | Sarsa更新 | \(Q \leftarrow Q + \alpha(r + \gamma Q' - Q)\) | 同策略TD学习 | (T) |
| (5.26) | TD误差 | \(\delta = r + \gamma Q' - Q\) | 当前估计与目标的差 | (T) |
| (5.27) | 局部近似 | \(Q(s,a) = \sum \theta \beta(s,s')\) | 核函数线性组合 | (T) |
| (5.31) | 感知机 | \(q = \sum \theta_i x_i\) | 线性加权求和 | (T) |
| (5.34) | 叶子q值 | \(q(s,a) = r + \gamma U(s')\) | 基于模型的单步估计 | (T) |
注:(T)=理论推导,(E)=经验公式
参考文献
- Gittins, J. C. (1989). Multi-armed Bandit Allocation Indices. John Wiley & Sons.
- Sutton, R. S., & Barto, A. G. (1998). Reinforcement Learning: An Introduction. MIT Press.
- Wiering, M., & Otterlo, M. V. (Eds.). (2012). Reinforcement Learning: State-of-the-Art. Springer.
- Kochenderfer, M. J. (2015). Decision Making Under Uncertainty: Theory and Application. MIT Press.