机器学习:P5-P8 误差的来源 and 梯度下降
2021/8/21 6:08:36
本文主要是介绍机器学习:P5-P8 误差的来源 and 梯度下降,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
P5-P8 误差的来源 and 梯度下降
bias(偏差)+variance(方差)
真实的模型和训练的模型之间的误差是偏差和方差导致的
1.评估bias
\(假设x的平均值是\mu,方差\sigma^2\)
取N个样本点,计算平均值\(m,m\neq\mu\)
对很多组的m求期望等于\(\mu\)
m分布对于\(\mu\)的方差取决于样本点的个数,N越小越逆闪
2.评估variance
\(s^2=\frac{1}{N}\sum_n(x^n-m)^2\)
\(E[s^2]=\frac{N-1}{N}\sigma^2\neq\sigma^2\)
简单的模型偏差是比较大的,复杂的模型偏差小,复杂模型的域可能包含目标
简单的模型方差是比较小的,复杂的模型方差大,散布开
bias大重新考虑模型
variance大考虑数据集的调整
交叉验证
将训练集分为两部分,训练集和检验集,
1.用训练集训练模型,然后再验证集上比较,确定较好的模型
2.用全部的训练集训练确定的模型
3.用测试集测试
N-折交叉验证
将训练集分成N份
1.N-1Train,1val
2.用不同的model去训练选出最好的
3.用全部的Training set去训练选出的model
Gradient Descent
Tip 1: Tuning your learning rates
Adaptive Learning Rates
逐渐减小learning rate \(\eta^t=\eta/\sqrt{t+1}\)
不同的参数设计不同的rate
Adagrad
Learning rate= \(\eta^t\)除以过去所有微分的平均值
得\(w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t\)
the best step is \(\frac{Fist derivative}{Second derivative}\)
Tip 2 : Stochastic Gradient Descent
每次只选一个example(部分data)来算Lost function ,G-D走了一步,S-G-D走很多很多步
但每次走的方向和全局梯度方向是不一致的
Tip 3 : Feature Scaling
让不同的参数的Scaling相同
R个example, 对每一个example的参数i取平均值\(\sigma_i\)
\(x_i^r<-\frac{x_i^r-m_i}{\sigma_i}\)
Gradient Descent 的 learning rate要小,否则就不能保证Lost function在减小。
数学证明的关键思路:函数在某一点的泰勒展开后,只有x无限趋于这个点时,才能用多项式插(一阶展开就是Gradient Descent的形式了),但Learning rate 太大的时候,x距离这一点就不足够近了。
这篇关于机器学习:P5-P8 误差的来源 and 梯度下降的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-18机器学习与数据分析的区别
- 2024-10-28机器学习资料入门指南
- 2024-10-25机器学习开发的几大威胁及解决之道
- 2024-10-24以下是五个必备的MLOps (机器学习运维)工具,帮助提升你的生产效率 ??
- 2024-10-15如何选择最佳的机器学习部署策略:云 vs. 边缘
- 2024-10-12从软件工程师转行成为机器学习工程师
- 2024-09-262024年机器学习路线图:精通之路步步为营指南
- 2024-09-13机器学习教程:初学者指南
- 2024-08-07从入门到精通:全面解析机器学习基础与实践
- 2024-01-24手把手教你使用MDK仿真调试