[机器学习算法面试题] 六.训练集、验证集、测试集的理解。
2022/2/4 20:13:11
本文主要是介绍[机器学习算法面试题] 六.训练集、验证集、测试集的理解。,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
目录
- 1.训练集
- 2.验证集
- 3.测试集
- 4.训练集、验证集、测试集区别
- 5.训练集、验证集、测试集划分比例
- 5.1.数据量较小
- 5.2.数据量较大
1.训练集
训练集(training dataset):用于模型拟合的数据样本。
2.验证集
验证集(validation dataset):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。 通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),以决定是否停止继续训练。
3.测试集
测试集(test dataset):用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。
4.训练集、验证集、测试集区别
形象上来说训练集就像是学生的课本,学生根据课本里的内容来掌握知识;验证集就像是作业,通过作业可以知道不同学生学习情况、进步的速度快慢;而最终的测试集就像是考试,考的题是平常都没有见过,考察学生举一反三的能力。
5.训练集、验证集、测试集划分比例
5.1.数据量较小
传统机器学习中,数据量较小。
无验证集情况下:训练集:测试集 = 7: 3
有验证集情况下:训练集:验证集:测试集 = 6: 2: 2
5.2.数据量较大
在深度学习中,数据量较大,可以拿出很小的比例来当验证集和测试集(比例小但数据量可能仍然很大)。如:假设有100W条数据,只需要拿出1W条来当验证集,1W条来当测试集,就能很好地work了。
深度学习数据量较大的情况下:训练集:验证集:测试集= 98: 1: 1
这篇关于[机器学习算法面试题] 六.训练集、验证集、测试集的理解。的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-17机器学习资料入门指南
- 2024-12-06如何用OpenShift流水线打造高效的机器学习运营体系(MLOps)
- 2024-12-06基于无监督机器学习算法的预测性维护讲解
- 2024-12-03【机器学习(六)】分类和回归任务-LightGBM算法-Sentosa_DSML社区版
- 2024-12-0210个必须使用的机器学习API,为高级分析助力
- 2024-12-01【机器学习(五)】分类和回归任务-AdaBoost算法-Sentosa_DSML社区版
- 2024-11-28【机器学习(四)】分类和回归任务-梯度提升决策树(GBDT)算法-Sentosa_DSML社区版
- 2024-11-26【机器学习(三)】分类和回归任务-随机森林(Random Forest,RF)算法-Sentosa_DSML社区版
- 2024-11-18机器学习与数据分析的区别
- 2024-10-28机器学习资料入门指南