第6章逻辑斯谛回归与最大熵模型

逻辑斯谛回归（logistic regression）与最大熵模型（maximum entropy model）是统计学习中两种重要的概率判别模型。本章首先介绍逻辑斯谛分布及其回归模型，然后介绍最大熵模型，最后讲述这两种模型的学习算法，包括改进的迭代尺度法和拟牛顿法。

\[P(Y=1|x) = \frac{1}{1 + e^{-(w \cdot x + b)}}$$ $$\text{odds} = \frac{P}{1-P}, \quad \log\text{odds} = w \cdot x + b$$ $$L(w) = \prod_{i=1}^{N} [\sigma(w \cdot x_i)]^{y_i}[1-\sigma(w \cdot x_i)]^{1-y_i}$$ $$P_w(y|x) = \frac{1}{Z_w(x)} \exp\left(\sum_{i=1}^{n} w_i f_i(x, y)\right)$$ $$Q(\theta, \theta^{(t)}) = \mathbb{E}_Z[\log P(X, Z|\theta) | X, \theta^{(t)}]\]

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

定义6.1（逻辑斯谛分布） 设 $X$ 是连续随机变量，$X$ 服从逻辑斯谛分布是指其分布函数和密度函数为：

其中，$\mu$ 为位置参数，$\gamma > 0$ 为形状参数。

逻辑斯谛分布的密度函数 $f(z)$ 和分布函数 $F(z)$ 的图形如图6.1所示。分布函数属于逻辑斯谛函数（logistic function），其图形是一条 S 形曲线（sigmoid curve）。该曲线以点 $(\mu, \frac{1}{2})$ 为中心对称，即满足：

曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数 $\gamma$ 的值越小，曲线在中心附近增长得越快。

6.1.2 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型（binomial logistic regression model）是一种分类模型，由条件概率分布 $P(Y|X)$ 表示，形式为参数化的逻辑斯谛分布。这里，随机变量 $X$ 取值为实数，随机变量 $Y$ 取值为 $1$ 或 $0$。我们通过监督学习的方法来估计模型参数。

定义6.2（逻辑斯谛回归模型） 二项逻辑斯谛回归模型是如下条件概率分布：

这里，$x \in \mathbb{R}^n$ 是输入，$Y \in \{0,1\}$ 是输出，$w \in \mathbb{R}^n$ 和 $b \in \mathbb{R}$ 是参数，$w$ 称为权值向量，$b$ 称为偏置。

有时为了方便，将权值向量和输入向量加以扩充，仍记作 $w, x$，即 $w = (w^{(1)}, w^{(2)}, \ldots, w^{(n)}, b)^T$，$x = (x^{(1)}, x^{(2)}, \ldots, x^{(n)}, 1)^T$。这时，逻辑斯谛回归模型如下：

现在考查逻辑斯谛回归模型的特点。一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 $p$，那么该事件的几率是 $\frac{p}{1-p}$。该事件的对数几率（log odds）或 logit 函数是：

对逻辑斯谛回归而言，由式（6.5）与式（6.6）得：

这就是说，在逻辑斯谛回归模型中，输出 $Y=1$ 的对数几率是输入 $x$ 的线性函数，或者说，输出 $Y=1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即逻辑斯谛回归模型。

换一个角度看，考虑对输入 $x$ 进行分类的线性函数 $w \cdot x$，其值域为实数域。注意，这里 $x \in \mathbb{R}^{n+1}$，$w \in \mathbb{R}^{n+1}$，通过逻辑斯谛回归模型定义式（6.5）可以将线性函数 $w \cdot x$ 转换为概率：

这时，线性函数的值越接近正无穷，概率值就越接近 $1$；线性函数的值越接近负无穷，概率值就越接近 $0$。这样的模型就是逻辑斯谛回归模型。

6.1.3 模型参数估计

逻辑斯谛回归模型学习时，对于给定的训练数据集 $T = \{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\}$，其中 $x_i \in \mathbb{R}^n$，$y_i \in \{0,1\}$，可以应用极大似然估计法估计模型参数，从而得到逻辑斯谛回归模型。

设：

似然函数为：

对数似然函数为：

对 $L(w)$ 求极大值，得到 $w$ 的估计值。这样，问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

假设 $w$ 的极大似然估计值是 $\hat{w}$，那么学到的逻辑斯谛回归模型为：

6.1.4 Softmax 多分类

上面介绍的逻辑斯谛回归模型是二项分类模型，用于二类分类。可以将其推广为多项逻辑斯谛回归模型（multi-nominal logistic regression model），用于多类分类。假设离散型随机变量 $Y$ 的取值集合是 $\{1,2,\ldots,K\}$，那么多项逻辑斯谛回归模型是：

这里，$x \in \mathbb{R}^{n+1}$，$w_k \in \mathbb{R}^{n+1}$。有时也将其写成 Softmax 形式：

这就是 Softmax 回归（Softmax regression），又称多项逻辑斯谛回归，是逻辑斯谛回归在多分类问题上的推广。

6.2 最大熵模型

最大熵模型（maximum entropy model）由最大熵原理推导实现。这里首先叙述一般的最大熵原理，然后讲解最大熵模型的推导，最后给出最大熵模型学习的形式。

6.2.1 最大熵原理

最大熵原理是统计学习的一般原理。学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理表示在满足约束条件的模型集合中选择熵最大的模型。

假设离散随机变量 $X$ 的概率分布是 $P(X)$，则熵（定义见第5章）为：

熵满足下列不等式：

式中，$|X|$ 是 $X$ 的取值个数，且当 $X$ 的分布是均匀分布时右边的等号成立。这就是说，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是"等可能的"。最大熵原理通过熵的最大化来表示等可能性。"等可能"不容易操作，而熵则是一个可优化的数值指标。

首先，通过一个简单的例子来介绍一下最大熵原理。

例6.1 假设随机变量 $X$ 有 $5$ 个取值 $\{A,B,C,D,E\}$，要估计取各个值的概率。

解这些概率值满足以下约束条件：

满足这个约束条件的概率分布有无穷多个。如果没有任何其他信息，仍要对概率分布进行估计，一个办法就是认为这个分布中取各个值的概率是相等的：

等概率表示了对事实的无知。因为没有更多的信息，这种判断是合理的。

有时，能从一些先验知识中得到一些对概率值的约束条件，例如：

满足这两个约束条件的概率分布仍然有无穷多个。在缺少其他信息的情况下，可以认为 $A$ 与 $B$ 是等概率的，$C,D,E$ 是等概率的，于是：

如果还有第3个约束条件：$P(A) + P(C) = \frac{1}{2}$，可以继续按照满足约束条件下求等概率的方法估计概率分布。

图6.2提供了用最大熵原理进行概率模型选择的几何解释。概率模型集合 $\mathcal{C}$ 可由欧氏空间中的单纯形（simplex）来表示，如左图的三角形（2-单纯形）。一个点代表一个模型，整个单纯形代表模型集合。右图上的一条直线对应于一个约束条件，直线的交集对应于满足所有约束条件的模型集合。一般地，这样的模型仍有无穷多个。学习的目的是在可能的模型集合中选择最优模型，而最大熵原理则给出最优模型选择的一个准则。

6.2.2 最大熵模型的定义

最大熵原理是统计学习的一般原理，现在将其应用于分类问题。

假设分类模型是一个条件概率分布 $P(Y|X)$，$X \in \mathcal{X} \subseteq \mathbb{R}^n$ 表示输入，$Y \in \mathcal{Y}$ 表示输出，$\mathcal{X}$ 和 $\mathcal{Y}$ 分别是输入和输出的集合。这个模型表示的是对于给定的输入 $X$，以条件概率 $P(Y|X)$ 输出 $Y$。

给定一个训练数据集：

首先考虑模型应该满足的条件。给定训练数据集，可以确定联合分布 $P(X,Y)$ 的经验分布和边缘分布 $P(X)$ 的经验分布，分别以 $\tilde{P}(X,Y)$ 和 $\tilde{P}(X)$ 表示。这里：

其中，$\nu(X=x,Y=y)$ 表示训练数据中样本 $(x,y)$ 出现的频数，$\nu(X=x)$ 表示训练数据中输入 $x$ 出现的频数，$N$ 表示训练样本容量。

特征函数（feature function）$f(x,y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实。其定义是：

它是一个二值函数，当 $x$ 与 $y$ 满足这个事实时取值为 $1$，否则取值为 $0$。

特征函数 $f(x,y)$ 关于经验分布 $\tilde{P}(X,Y)$ 的期望值，用 $E_{\tilde{P}}(f)$ 表示：

特征函数 $f(x,y)$ 关于模型 $P(Y|X)$ 与 $\tilde{P}(X)$ 的期望值，用 $E_{P}(f)$ 表示：

如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等，即：

即：

一般地，特征函数可以是任意实值函数。

我们将式（6.10）或式（6.11）作为模型学习的约束条件。假如有 $n$ 个特征函数 $f_i(x,y)$，$i=1,2,\ldots,n$，就有 $n$ 个约束条件。

定义6.3（最大熵模型） 假设满足所有约束条件的模型集合为：

定义在条件概率分布 $P(Y|X)$ 上的条件熵为：

式中的对数为自然对数。

则模型集合 $\mathcal{C}$ 中条件熵 $H(P)$ 最大的模型称为最大熵模型。式（6.13）中的条件熵是给定输入 $X$ 的条件下，输出 $Y$ 的条件概率分布的熵对 $\tilde{P}(x)$ 的数学期望。

6.2.3 最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为最优化问题。

给定训练数据集 $T = \{(x_1,y_1), (x_2,y_2), \ldots, (x_N,y_N)\}$，以及特征函数 $f_i(x,y)$，$i=1,2,\ldots,n$，最大熵模型的学习等价于以下约束最优化问题：

按照最优化问题的习惯，将求最大值问题改写为等价的求最小值问题：

求解约束最优化问题（6.14）~（6.16），通常通过迭代算法求解。这里，将约束最优化的原始问题转换为无约束最优化的对偶问题来求解。

首先，引进拉格朗日乘子 $w_0, w_1, w_2, \ldots, w_n$，定义拉格朗日函数 $L(P,w)$：

最优化的原始问题是：

对偶问题是：

由于拉格朗日函数 $L(P,w)$ 是凸函数，原始问题（6.18）的解与对偶问题（6.19）的解是等价的。这样，可以通过求解对偶问题（6.19）来求解原始问题（6.18）。

首先，求解对偶问题（6.19）内部的极小化问题 $\min_{P \in \mathcal{C}} L(P,w)$。将 $\min_{P \in \mathcal{C}} L(P,w)$ 记作 $\Psi(w) = L(P_w,w)$，同时将其解记作 $P_w = \arg\min_{P \in \mathcal{C}} L(P,w) = P_w(y|x)$。

具体地，令 $L(P,w)$ 对 $P(y|x)$ 的偏导数：

令偏导数等于 $0$，在 $\tilde{P}(x) > 0$ 的情况下，解得：

由于 $\sum_{y}P(y|x) = 1$，得：

其中，

的权值。由式（6.22）和（6.23）表示的模型 $P_w = P_w(y|x)$ 就是最大熵模型。这里，$w \in \mathbb{R}^n$ 表示

之后，求解对偶问题外部的极大化问题：

将其解记为 $w^*$，即学习到最优模型（最大熵模型）。

6.2.4 极大似然估计

从以上最大熵模型学习中可以看出，最大熵模型是由式（6.22）、式（6.23）表示的条件概率分布。下面证明对偶函数 $\Psi(w)$ 的极大化等价于最大熵模型的极大似然估计。

已知训练数据的经验概率分布 $\tilde{P}(X,Y)$，条件概率分布 $P(Y|X)$ 的对数似然函数表示为：

当条件概率分布 $P(y|x)$ 取式（6.22）和（6.23）时，对数似然函数 $L_{\tilde{P}}(P_w)$ 为：

再看对偶函数 $\Psi(w)$。由式（6.17）及式（6.20）可得：

比较两式，可得：

这证明了 $\Psi(w)$ 等价于对数似然函数 $L_{\tilde{P}}(P_w)$，于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计这一事实。

这样，最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以将最大熵模型写成更一般的形式：

其中，

这里，$x \in \mathbb{R}^{n+1}$ 为输入，$y \in \{1,2,\ldots,K\}$ 为输出，$w_i \in \mathbb{R}^{n+1}$ 为权值向量，$f_i(x,y)$，$i=1,2,\ldots,n$ 为任意实值特征函数。

最大熵模型与逻辑斯谛回归模型有类似的形式，它们又称为对数线性模型（log-linear model）。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

6.3 模型学习的最优化算法

逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解。从最优化的观点看，这时的目标函数具有很好的性质。它是光滑的凸函数，因此多种最优化方法都适用，保证能找到全局最优解。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛较快。

下面介绍基于改进的迭代尺度法与拟牛顿法的最大熵模型学习算法。梯度下降法参阅附录。

6.3.1 改进的迭代尺度法

改进的迭代尺度法（Improved Iterative Scaling，IIS）是一种最大熵模型学习的最优化算法。

已知最大熵模型：

其中，

对数似然函数为：

目标是通寸极大似然估计学习模型参数，即求对数似然函数的极大值。

IIS 的想法是：假设当前参数向量为 $w = (w_1, w_2, \ldots, w_n)^T$，我们希望找到一个新的参数向量 $w + \delta = (w_1 + \delta_1, w_2 + \delta_2, \ldots, w_n + \delta_n)^T$，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法：$w \rightarrow w + \delta$，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

对于给定的经验分布 $\tilde{P}(x,y)$，模型参数从 $w$ 到 $w + \delta$，对数似然函数的改变量是：

利用不等式 $-\log\alpha \geqslant 1 - \alpha$，$\alpha > 0$，建立对数似然函数改变量的下界：

右端记为 $A(\delta|w)$。于是有：

即 $A(\delta|w)$ 是对数似然函数改变量的一个下界。如果能找到适当的 $\delta$ 使下界 $A(\delta|w)$ 提高，那么对数似然函数也会提高。然而，函数 $A(\delta|w)$ 中的 $\delta$ 是一个向量，含有多个变量，不易同时优化。IIS 试图一次只优化其中一个变量 $\delta_i$，而固定其他变量 $\delta_j$（$j \neq i$）。

具体地，IIS 引进一个量 $f^{\#}(x,y)$，为达到这一目的，IIS 进一步降低下界 $A(\delta|w)$。有：

因为 $f_i$ 是二值函数，故 $f^{\#}(x,y)$ 表示所有特征在 $(x,y)$ 出现的次数。这样，$A(\delta|w)$ 可以改写为：

利用指数函数的同性以及对任意有 $\alpha > 0$，$\alpha - 1 \geqslant \log\alpha$ 这一事实，根据 Jensen 不等式，得到：

记不等式（6.31）右端为 $B(\delta|w)$：

于是得到：

这里，$B(\delta|w)$ 是对数似然函数改变量的一个新的（相对更紧的）下界。

将 $B(\delta|w)$ 对 $\delta_i$ 的偏导数：

在式（6.32）中，除 $\delta_i$ 外不含任何其他变量。令偏导数为 $0$ 得到：

于是一次对 $\delta_i$ 求解方程（6.33）可以求出 $\delta$。

这就给出了一种求 $w$ 的最优解的迭代算法，即改进的迭代尺度算法 IIS。

算法6.1（改进的迭代尺度算法 IIS）

输入： 特征函数 $f_1, f_2, \ldots, f_n$；经验分布 $\tilde{P}(X,Y)$，模型 $P_w(y|x)$；

输出： 最优参数值 $w^*$；最优模型 $P_{w^*}(y|x)$。

（1）对所有 $i \in \{1,2,\ldots,n\}$，取 $w_i = 0$。

（2）对每一 $i \in \{1,2,\ldots,n\}$：

（a）令 $\delta_i$ 是方程

的解，这里，$E_{\tilde{P}}(f_i) = \sum_{x,y}\tilde{P}(x,y)f_i(x,y)$，$f^{\#}(x,y) = \sum_{i=1}^{n}f_i(x,y)$。

（b）更新 $w_i$ 值：$w_i \leftarrow w_i + \delta_i$。

（3）如果不是所有 $w_i$ 都收敛，重复步骤（2）。

这一算法关键的一步是（a），即求解方程（6.33）中的 $\delta_i$。若 $f^{\#}(x,y)$ 是常数，即对所有 $x,y$，有 $f^{\#}(x,y) = M$，则 $\delta_i$ 可以显式地表示成：

如果 $f^{\#}(x,y)$ 不是常数，那么必须通过数值计算求 $\delta_i$。简单有效的方法是牛顿法。

以 $g(\delta_i) = 0$ 表示方程（6.33），牛顿法通过迭代求得 $\delta_i^*$，使得 $g(\delta_i^*) = 0$。其迭代公式是：

只要适当选取初始值 $\delta_i^{(0)}$，由于 $\delta_i$ 的方程（6.33）有单根，因此牛顿法恒收敛，而且收敛速度较快。

6.3.2 拟牛顿法

最大熵模型学习还可以应用牛顿法或拟牛顿法。这里介绍拟牛顿法中较为著名的 BFGS 算法。

最大熵模型写成一般形式：

目标函数：

梯度：

相应的拟牛顿法 BFGS 算法如下。

算法6.2（最大熵模型学习的 BFGS 算法）

输入： 特征函数 $f_1, f_2, \ldots, f_n$；经验分布 $\tilde{P}(x,y)$，目标函数 $f(w)$，梯度 $g(w) = \nabla f(w)$，精度要求 $\varepsilon$；

输出： 最优参数值 $w^*$；最优模型 $P_{w^*}(y|x)$。

（1）选定初始点 $w^{(0)}$，取 $B_0$ 为正定对称矩阵，$k=0$。

（2）计算 $g_k = g(w^{(k)})$。若 $\|g_k\| < \varepsilon$，则停止计算，得 $w^* = w^{(k)}$；否则转（3）。

（3）由 $B_k p_k = -g_k$ 求出 $p_k$。

（4）一维搜索：确定 $\lambda_k$ 使得：

（5）令 $w^{(k+1)} = w^{(k)} + \lambda_k p_k$。

（6）计算 $g_{k+1} = g(w^{(k+1)})$，若 $\|g_{k+1}\| < \varepsilon$，则停止计算，得 $w^* = w^{(k+1)}$；否则按下式求出 $B_{k+1}$：

其中：

（7）置 $k = k + 1$，转（3）。

6.4 梯度下降算法

逻辑斯谛回归模型和最大熵模型的学习都可以采用梯度下降法。梯度下降法是一种经典的迭代优化算法，其基本思想是沿着函数梯度的负方向进行搜索，逐步逼近函数的极小值点。

对对数似然函数 $L(w)$，其梯度为：

梯度下降法的迭代公式为：

其中 $\eta > 0$ 为学习率，控制每一步更新的步长。

梯度下降法的算法步骤如下：

算法6.3（逻辑斯谛回归/最大熵模型的梯度下降算法）

输入： 训练数据集 $T = \{(x_1,y_1), (x_2,y_2), \ldots, (x_N,y_N)\}$，学习率 $\eta$，精度要求 $\varepsilon$；

输出： 最优参数值 $w^*$。

（1）取初始值 $w^{(0)} = 0$，置 $t = 0$。

（2）计算梯度 $g_t = \nabla L(w^{(t)})$。

（3）若 $\|g_t\| < \varepsilon$，则停止迭代，$w^* = w^{(t)}$；否则，令 $w^{(t+1)} = w^{(t)} - \eta g_t$，置 $t = t + 1$，转（2）。

在实际应用中，学习率 $\eta$ 的选择很重要。过大可能导致震荡，过小则收敛速度太慢。常用的策略是使用衰减学习率，或者采用一维搜索来确定最优步长。

6.5 逻辑斯谛回归与最大熵模型的关系

逻辑斯谛回归模型和最大熵模型虽然来自不同的出发点，但它们有着密切的联系。

从模型形式上看，两者都是对数线性模型（log-linear model）。逻辑斯谛回归模型可以看作是最大熵模型在二分类情况下的特例。

具体来说，逻辑斯谛回归模型给出的是：

最大熵模型在二分类情况下，如果选择适当的特征函数，也可以得到相同形式的对数几率模型。

从学习方法上看，两者都可以通过极大似然估计来学习模型参数。逻辑斯谛回归直接对对数似然函数进行优化，而最大熵模型则通过对偶函数进行优化，但两者在本质上是一致的。

两者的联系可以总结为：

1。 形式相似：两者都表现为对数线性形式，条件概率都可以写成指数族的形式。

2。 学习等价：最大熵模型学习的对偶函数极大化等价于对数似然函数的极大化，这意味着两者在学习目标是等价的。

3。 算法通用：用于求解两者的优化算法（如 IIS、BFGS、梯度下降等）是通用的。

6.6 本章概要

本章主要内容总结如下：

1。 逻辑斯谛回归模型：是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。

逻辑斯谛回归模型源自逻辑斯谛分布，其分布函数是 S 形曲线。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。

2。 最大熵模型：是由以下条件概率分布表示的分类模型。最大熵模型也可以用于二类或多类分类。

其中，$Z_w(x) = \sum_{y}\exp\left(\sum_{i=1}^{n}w_i f_i(x,y)\right)$ 是规范化因子，$f_i$ 为特征函数，$w_i$ 为特征函数的权值。

3。 最大熵原理：是统计学习的一般原理。最大熵原理认为在满足约束条件的概率模型集合中，熵最大的模型是最好的模型。

最大熵模型的学习形式化为以下约束最优化问题：

4。 GIS/IIS 参数估计：最大熵模型学习可以形式化为对偶函数极大化问题，求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法等。

5。 模型特点：逻辑斯谛回归模型和最大熵模型都是对数线性模型，都可以通过极大似然估计或正则化的极大似然估计进行模型学习。

公式总结表

公式编号	公式内容	说明
(6.1)	$F(z) = \frac{1}{1 + e^{-(z-\mu)/\gamma}}$	逻辑斯谛分布的分布函数
(6.2)	$f(z) = \frac{e^{-(z-\mu)/\gamma}}{\gamma\left(1 + e^{-(z-\mu)/\gamma}\right)^2}$	逻辑斯谛分布的密度函数
(6.5)	$P(Y=1	x) = \frac{1}{1 + e^{-(w \cdot x)}}$
(6.7)(6.8)	$P(Y=k\\|x) = \frac{\exp(w_k \cdot x)}{1 + \sum\exp(w_k \cdot x)}$	多项逻辑斯谛回归模型
(6.9)	$H(P) = -\sum_{x}P(x)\log P(x)$	熵的定义
(6.10)	$E_{P}(f) = E_{\tilde{P}}(f)$	特征函数的期望约束
(6.13)	$H(P) = -\sum_{x,y}\tilde{P}(x)P(y\\|x)\log P(y\\|x)$	条件熵的定义
(6.22)	$P_w(y\\|x) = \frac{\exp(\sum w_i f_i(x,y))}{Z_w(x)}$	最大熵模型的一般形式
(6.23)	$Z_w(x) = \sum_{y}\exp(\sum w_i f_i(x,y))$	规范化因子
(6.28)	$P_w(y\\|x) = \frac{1}{Z_w(x)}\exp(\sum_{i=1}^{n}w_i f_i(x,y))$	最大熵模型的标准形式
(6.33)	$\sum\tilde{P}(x)P_w(y\\|x)f_i\exp(\delta_i f^{\#}) = E_{\tilde{P}}(f_i)$	IIS 算法的核心方程
(6.34)	$\delta_i = \frac{1}{M}\log\frac{E_{\tilde{P}}(f_i)}{E_{P}(f_i)}$	$f^{\#}$ 为常数时 $\delta_i$ 的解析解

习题

6.1 确认逻辑斯谛分布属于指数分布族。

6.2 写出逻辑斯谛回归模型学习的梯度下降算法。

6.3 写出最大熵模型学习的 DFP 算法。（关于一般的 DFP 算法参见附录 B）

参考文献

[1] Berger A, Della Pietra S D, Pietra V D。 A maximum entropy approach to natural language processing。 Computational Linguistics, 1996, 22(1): 39-71。

[2] Berger A。 The improved iterative scaling algorithm: a gentle introduction。 http://www。cs。cmu。edu/afs/cs/user/aberger/www/ps/scaling。ps。

[3] Hastie T, Tibshirani R, Friedman J。 The Elements of Statistical Learning: Data Mining, Inference, and Prediction。 Springer-Verlag, 2001。

[4] Mitchell T M。 Machine Learning。 McGraw-Hill Companies, Inc。, 1997。

[5] Collins M, Schapire R E, Singer Y。 Logistic regression, AdaBoost and Bregman distances。 Machine Learning, 2002, 48(1-3): 253-285。

6.7 公式汇总表

编号	公式名称	公式形式	说明	类型
(6.1)	逻辑斯谛分布	$F(x) = \frac{1}{1 + e^{-(x-\mu)/s}}$	分布函数	定义
(6.2)	几率	$\text{odds} = \frac{P}{1-P}$	事件发生比	定义
(6.3)	对数几率	$\log\text{odds} = \log\frac{P}{1-P}$	logit函数	变换
(6.4)	逻辑斯谛回归	$P(Y=1	\mathbf{x}) = \frac{1}{1 + e^{-(\mathbf{w}\cdot\mathbf{x}+b)}}$	sigmoid形式
(6.5)	似然函数	$L(\mathbf{w}) = \prod_{i=1}^{N} [\sigma(\mathbf{w}\cdot\mathbf{x}_i)]^{y_i}[1-\sigma(\mathbf{w}\cdot\mathbf{x}_i)]^{1-y_i}$	似然函数	目标
(6.6)	对数似然	$\ell(\mathbf{w}) = \sum_{i=1}^{N} [y_i \log \sigma + (1-y_i)\log(1-\sigma)]$	对数似然	目标
(6.7)	梯度下降	$\mathbf{w}^{(t+1)} = \mathbf{w}^{(t)} - \eta \nabla \ell(\mathbf{w})$	参数更新	算法
(6.8)	Softmax	$P(y=k	\mathbf{x}) = \frac{e^{\mathbf{w}k \cdot \mathbf{x}}}{\sum$}^{K} e^{\mathbf{w}_j \cdot \mathbf{x}}	多分类
(6.9)	最大熵原理	$H(P) = -\sum_{x,y} \hat{P}(x)P(y	x)\log P(y	x)$
(6.10)	最大熵模型	$P_w(y	x) = \frac{1}{Z_w(x)} \exp\left(\sum_{i=1}^{n} w_i f_i(x, y)\right)$	指数形式

公式编号	公式内容	说明
(6.1)	\(F(z) = \frac{1}{1 + e^{-(z-\mu)/\gamma}}\)	逻辑斯谛分布的分布函数
(6.2)	\(f(z) = \frac{e^{-(z-\mu)/\gamma}}{\gamma\left(1 + e^{-(z-\mu)/\gamma}\right)^2}\)	逻辑斯谛分布的密度函数
(6.5)	$P(Y=1	x) = \frac{1}{1 + e^{-(w \cdot x)}}$
(6.7)(6.8)	\(P(Y=k\\|x) = \frac{\exp(w_k \cdot x)}{1 + \sum\exp(w_k \cdot x)}\)	多项逻辑斯谛回归模型
(6.9)	\(H(P) = -\sum_{x}P(x)\log P(x)\)	熵的定义
(6.10)	\(E_{P}(f) = E_{\tilde{P}}(f)\)	特征函数的期望约束
(6.13)	\(H(P) = -\sum_{x,y}\tilde{P}(x)P(y\\|x)\log P(y\\|x)\)	条件熵的定义
(6.22)	\(P_w(y\\|x) = \frac{\exp(\sum w_i f_i(x,y))}{Z_w(x)}\)	最大熵模型的一般形式
(6.23)	\(Z_w(x) = \sum_{y}\exp(\sum w_i f_i(x,y))\)	规范化因子
(6.28)	\(P_w(y\\|x) = \frac{1}{Z_w(x)}\exp(\sum_{i=1}^{n}w_i f_i(x,y))\)	最大熵模型的标准形式
(6.33)	\(\sum\tilde{P}(x)P_w(y\\|x)f_i\exp(\delta_i f^{\#}) = E_{\tilde{P}}(f_i)\)	IIS 算法的核心方程
(6.34)	\(\delta_i = \frac{1}{M}\log\frac{E_{\tilde{P}}(f_i)}{E_{P}(f_i)}\)	\(f^{\#}\) 为常数时 \(\delta_i\) 的解析解

编号	公式名称	公式形式	说明	类型
(6.1)	逻辑斯谛分布	\(F(x) = \frac{1}{1 + e^{-(x-\mu)/s}}\)	分布函数	定义
(6.2)	几率	\(\text{odds} = \frac{P}{1-P}\)	事件发生比	定义
(6.3)	对数几率	\(\log\text{odds} = \log\frac{P}{1-P}\)	logit函数	变换
(6.4)	逻辑斯谛回归	$P(Y=1	\mathbf{x}) = \frac{1}{1 + e^{-(\mathbf{w}\cdot\mathbf{x}+b)}}$	sigmoid形式
(6.5)	似然函数	\(L(\mathbf{w}) = \prod_{i=1}^{N} [\sigma(\mathbf{w}\cdot\mathbf{x}_i)]^{y_i}[1-\sigma(\mathbf{w}\cdot\mathbf{x}_i)]^{1-y_i}\)	似然函数	目标
(6.6)	对数似然	\(\ell(\mathbf{w}) = \sum_{i=1}^{N} [y_i \log \sigma + (1-y_i)\log(1-\sigma)]\)	对数似然	目标
(6.7)	梯度下降	\(\mathbf{w}^{(t+1)} = \mathbf{w}^{(t)} - \eta \nabla \ell(\mathbf{w})\)	参数更新	算法
(6.8)	Softmax	$P(y=k	\mathbf{x}) = \frac{e^{\mathbf{w}k \cdot \mathbf{x}}}{\sum$}^{K} e^{\mathbf{w}_j \cdot \mathbf{x}}	多分类
(6.9)	最大熵原理	$H(P) = -\sum_{x,y} \hat{P}(x)P(y	x)\log P(y	x)$
(6.10)	最大熵模型	$P_w(y	x) = \frac{1}{Z_w(x)} \exp\left(\sum_{i=1}^{n} w_i f_i(x, y)\right)$	指数形式

第6章 逻辑斯谛回归与最大熵模型