逻辑回归与最大熵模型

2021/6/11 10:25:36

编程Tag： 逻辑模型最大回归 7.1 牛顿

本文主要是介绍逻辑回归与最大熵模型，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

更多机器学习方法总结请到我这个博客链接

文章目录

7 逻辑回归与最大熵模型
- 7.1 逻辑斯蒂回归（logistic regression ）
- - 7.1.0 和线性回归比较
  - 7.1.1 logistic 分布
  - 7.1.2 二项逻辑斯谛回归模型
  - 7.1.3 模型参数估计
  - 7.1.4 逻辑回归模型优缺点
- 7.2 最大熵模型（MEM）
- - 7.2.1 最大熵原理
  - 7.2.2 最大熵模型定义
  - 7.2.3 最大熵模型的学习
  - 7.2.4 对偶函数的极大化等价于最大熵模型的极大似然估计
  - 7.3 模型学习的最优化方法
  - 7.3.1 改进的迭代尺度法（improved iterative scaling，IIS）
  - 7.3.2 牛顿法
  - 7.3.3 拟牛顿法（DFP，BFGS，Broyden类算法）

7 逻辑回归与最大熵模型

逻辑斯谛回归（logistic regression,LR）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。本章首先介绍逻辑斯谛回归模型，然后介绍最大熵模型，最后讲述逻辑斯谛回归与最大熵模型的学习算法，包括改进的迭代尺度算法和拟牛顿法。

二者共处：

逻辑斯谛回归模型与最大熵模型都属于对数线性模型
逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计，或正则化的极大似然估计。
逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法。

7.1 逻辑斯蒂回归（logistic regression ）

逻辑回归是一种广义的线性模型，虽然由回归二字，但确实经典的分类模型。通过对数概率函数将线性函数的结果进行映射，目标空间从（-无穷，+无穷）映射到了（0，1），从而可以处理分类问题。

7.1.0 和线性回归比较

线性回归在训练时在整个整数域对异常点的敏感性是一致的（见下图），因此一般不适用于处理分类问题。因此采用对数概率函数将线性函数的结果进行（0，1）映射，转换成概率输出。

在这里插入图片描述

7.1.1 logistic 分布

1、定义
X服从logistic分布是指有以下的分布函数和密度函数

在这里插入图片描述
其中，分布函数以（u,1/2）中心对称，且有：

在这里插入图片描述
曲线特性:曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数r的值越小，曲线在中心附近增长得越快。

特殊的：
在这里插入图片描述

7.1.2 二项逻辑斯谛回归模型

在这里插入图片描述

为了方便，w和x记作：

这时，逻辑斯谛回归模型如下：

事件的几率：事件发生的概率与不发生的概率比值p/1-p。则该事件的对数几率（logit 函数）：
在这里插入图片描述
由上面三个公式得到：

说明在逻辑斯蒂回归中，输出Y=1的对数几率是输入X的线性模型，此即logistic regression 模型。

7.1.3 模型参数估计

设：

构造的似然函数为：
在这里插入图片描述
对数似然函数：

通过对L（w）取极大值，得到w的估计值。如果对数似然函数乘以-1/N,则转换为了一个极小值模型。
通过最速下降法和拟牛顿法可以得到w的极大似然估计值，那么学习到的逻辑斯蒂回归模型为：

在这里插入图片描述
以上是解决二分类的逻辑斯蒂模型，可以推广到多项逻辑斯蒂回归模型。

在这里插入图片描述

7.1.4 逻辑回归模型优缺点

优点
- 处理速度快，容易并行计算，是用于学习大规模训练的样本和特征
- 在工业界得到了广泛的应用
缺点
- 需要大量的特征组合和离散来增强特征的表达性
- 模型表达能力弱
- 容易欠拟合

7.2 最大熵模型（MEM）

最大熵模型（maximum entropy model）由最大熵原理推导实现。首先叙述最大熵原理，然后最大熵模型的推导，最后给出最大熵模型学习的形式。

7.2.1 最大熵原理

学习概率模型中，所有可能的概率模型里面，熵最大的概率模型是最好的模型。最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

7.2.2 最大熵模型定义

在这里插入图片描述
也就有n个约束条件。

最大熵模型定义:

在这里插入图片描述

7.2.3 最大熵模型的学习

转换成最优化问题的求解问题，这里详细介绍了拉格朗日对偶问题求解。

学习过程等价于优化问题的求解
在这里插入图片描述
进一步，可以将带约束的优化问题转换为无约束的对偶问题，通过对偶问题求解原问题。

7.2.4 对偶函数的极大化等价于最大熵模型的极大似然估计

。。。。看着有点难推导了

总之，最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以得到更一般形式的最大熵模型
在这里插入图片描述
其中：

总之，最大熵模型与逻辑斯谛回归模型有类似的形式，它们又称为对数线性模型（log linearmodel）。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

7.3 模型学习的最优化方法

逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解。从最优化的观点看，这时的目标函数具有很好的性质。它是光滑的凸函数，因此多种最优化的方法都适用，保证能找到全局最优解。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。