李宏毅《机器学习》学习笔记5.1

2021/7/21 23:36:48

编程Tag： 学习 5.1 batch point 训练 step loss minima 李宏毅

本文主要是介绍李宏毅《机器学习》学习笔记5.1，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1.Critical Point 的判断和解决

在模型训练过程中，我们可能会遇到模型loss function无法下降的情况，这可能是遇到了critical point。通过Taylor series approximation，我们可以判断某点是否为critical point以及critical point的性质。

通过Taylor series approximation表示该点附近的error surface，通过g（gradient）是否为零可判断当前是否为critical point，通过h（hessian matrix）可判断该点的性质：

当h为正定矩阵，该点为local minima
当h为负定矩阵，该点为local maxima
否则该点为鞍点（saddle point）

saddle point 处理方法

遇到鞍点时，我们可以通过hessian matrix找到下一步的update方向，即hessian matrix的特征向量方向。

在实际情况中，遇到local minima的情况很少，大部分是saddle point。

2.batch and momentum

small batch vs large batch

实际训练过程中，我们不会一次性把所有样本训练完，而是把样本分为n个batch，所有batch训练完成后为完成一个epoch，结束每次epoch后，将不同batch间的数据shuffle形成新的batch。

可能直觉上认为，训练大的batch虽然可以让我们更好把握减小loss function的方向，但比小batch更耗费时间，但引入平行计算后并非如此。按完成一个epoch来计算的话，训练大batch需要的时间更短。

但在training过程中，按照小batch来训练的话表现会更好，这是因为小的batch会为训练过程带来轻微扰动（noisy），而这些小扰动更不容易让模型的训练卡住。

在testing中smaller batch的表现也更好，这是因为更小更多的batch可以让loss function停在更平坦的minima（flat minima），而若是因为使用larger batch停在sharp minima，可能因为testing样本轻微的不同导致损失函数大幅上升。