第二章 模型评估与选择
2021/7/17 6:08:17
本文主要是介绍第二章 模型评估与选择,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
2.1 经验误差与过拟合
1.误差
2.
m个样本样本,a个分类错误
错误率:分类错误的样本数占样本总数的比例
E
=
a
/
m
E = a / m
E=a/m
准确率、精度:
1
−
E
1-E
1−E
我们实际希望得到的是在新样本上模型表现好的学习器。降低经验误差很容易,有些经验误差甚至为0,遗憾的是大多数这种情况都是不好的。
过拟合:
把训练样本自身特点当做潜在样本(需要被泛化的新样本)具有的一般性质。比较难解决
出现原因:学习能力过于强大,把不太一般的特点给学到了
欠拟合:
对样本的一般性质尚未学好。相对好解决
出现原因:学习能力低下
4.模型选择:理想的解决方案是对模型进行泛化误差评估,选择泛化误差小的模型。
2.2 评估方法
通常才用一个“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似,从而对模型作出评估。
测试集选取要求
从样本真实分布中独立同分布采样得到,尽可能与测试集相斥。
留出法
从数据集D中划分二个互斥集合,S、T。即:
D
=
S
∪
T
,
S
∩
T
=
∅
D=S\cup T,S\cap T =\varnothing
D=S∪T,S∩T=∅
在S上训练出模型,用T来评估测试误差,作为泛化误差的估计。
**注意:**训练、测试集划分要尽量保持数据分布的一致性,避免因数据划分过程引入额外偏差。
分层采样
从抽样角度看待数据集划分,保留类别比例的采样方式。避免了因为S/T样本类别比例差别大,而产生额外的偏差。
综上,单次采用留出法划分数据集往往不够稳定可靠,在使用留出法时,一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估效果。
交叉验证法
这篇关于第二章 模型评估与选择的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-04敏捷管理与看板工具:提升研发、设计、电商团队工作效率的利器
- 2025-01-04智慧养老管理工具如何重塑养老生态?
- 2025-01-04如何打造高绩效销售团队:工具与管理方法的结合
- 2025-01-04解决电商团队协作难题,在线文档工具助力高效沟通
- 2025-01-04春节超市管理工具:解锁高效运营与顾客满意度的双重密码
- 2025-01-046种主流销售预测模型:如何根据场景选用最佳方案
- 2025-01-04外贸服务透明化:增强客户信任与合作的最佳实践
- 2025-01-04重新定义电商团队协作:在线文档工具的战略作用
- 2025-01-04Easysearch Java SDK 2.0.x 使用指南(三)
- 2025-01-04百万架构师第八课:设计模式:设计模式容易混淆的几个对比|JavaGuide