机器学习:P5-P8 误差的来源 and 梯度下降
2021/8/21 6:08:36
本文主要是介绍机器学习:P5-P8 误差的来源 and 梯度下降,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
P5-P8 误差的来源 and 梯度下降
bias(偏差)+variance(方差)
真实的模型和训练的模型之间的误差是偏差和方差导致的
1.评估bias
\(假设x的平均值是\mu,方差\sigma^2\)
取N个样本点,计算平均值\(m,m\neq\mu\)
对很多组的m求期望等于\(\mu\)
m分布对于\(\mu\)的方差取决于样本点的个数,N越小越逆闪
2.评估variance
\(s^2=\frac{1}{N}\sum_n(x^n-m)^2\)
\(E[s^2]=\frac{N-1}{N}\sigma^2\neq\sigma^2\)
简单的模型偏差是比较大的,复杂的模型偏差小,复杂模型的域可能包含目标
简单的模型方差是比较小的,复杂的模型方差大,散布开
bias大重新考虑模型
variance大考虑数据集的调整
交叉验证
将训练集分为两部分,训练集和检验集,
1.用训练集训练模型,然后再验证集上比较,确定较好的模型
2.用全部的训练集训练确定的模型
3.用测试集测试
N-折交叉验证
将训练集分成N份
1.N-1Train,1val
2.用不同的model去训练选出最好的
3.用全部的Training set去训练选出的model
Gradient Descent
Tip 1: Tuning your learning rates
Adaptive Learning Rates
逐渐减小learning rate \(\eta^t=\eta/\sqrt{t+1}\)
不同的参数设计不同的rate
Adagrad
Learning rate= \(\eta^t\)除以过去所有微分的平均值
得\(w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t\)
the best step is \(\frac{Fist derivative}{Second derivative}\)
Tip 2 : Stochastic Gradient Descent
每次只选一个example(部分data)来算Lost function ,G-D走了一步,S-G-D走很多很多步
但每次走的方向和全局梯度方向是不一致的
Tip 3 : Feature Scaling
让不同的参数的Scaling相同
R个example, 对每一个example的参数i取平均值\(\sigma_i\)
\(x_i^r<-\frac{x_i^r-m_i}{\sigma_i}\)
Gradient Descent 的 learning rate要小,否则就不能保证Lost function在减小。
数学证明的关键思路:函数在某一点的泰勒展开后,只有x无限趋于这个点时,才能用多项式插(一阶展开就是Gradient Descent的形式了),但Learning rate 太大的时候,x距离这一点就不足够近了。
这篇关于机器学习:P5-P8 误差的来源 and 梯度下降的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-17机器学习资料入门指南
- 2024-12-06如何用OpenShift流水线打造高效的机器学习运营体系(MLOps)
- 2024-12-06基于无监督机器学习算法的预测性维护讲解
- 2024-12-03【机器学习(六)】分类和回归任务-LightGBM算法-Sentosa_DSML社区版
- 2024-12-0210个必须使用的机器学习API,为高级分析助力
- 2024-12-01【机器学习(五)】分类和回归任务-AdaBoost算法-Sentosa_DSML社区版
- 2024-11-28【机器学习(四)】分类和回归任务-梯度提升决策树(GBDT)算法-Sentosa_DSML社区版
- 2024-11-26【机器学习(三)】分类和回归任务-随机森林(Random Forest,RF)算法-Sentosa_DSML社区版
- 2024-11-18机器学习与数据分析的区别
- 2024-10-28机器学习资料入门指南