2021-10-14

2021/10/18 23:40:11

编程Tag： 数据测试 10 误差训练样本 14 2021 评估

本文主要是介绍2021-10-14，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

直观图 - 基本术语
示例（instance）/样本（sample）：一个事件或对象，在空间中又可称为特征向量（feature vector）

属性（attribute）/特征（feature）：反映事件或对象在某方面的表现或性质的事项

属性值（attribute value）：属性上的取值

属性空间（attribute space）/样本空间（sample space）/输入空间：属性张成的空间

数据集（data set）:训练集（training set）、测试集（testing set）

分类（classification）：预测离散值，有监督学习

回归（regression）：预测连续值，有监督学习

聚类（clustering）：将输入数据分组，无监督学习

泛化（generalization）：学得模型适用于新样本的能力
2.1 经验误差与过拟合
基本术语
错误率（error rate）：分类错误的样本数占样本总数的比例

精度（accuracy）：精度=1-错误率

误差（error）：
训练误差（training error）/经验误差（empirical error）——学习器在训练集上的误差

泛化误差（generalization）——在新样本上的误差

过拟合（overfitting）：学习器将训练样本自身的一些特点当作所有潜在样本都会具有的一般性质。过拟合无法彻底避免，是机器学习面临的关键障碍。

欠拟合（underfitting）：对训练样本的一般性质尚未学好。容易克服，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等。

模型选择（model selection）：学习算法+参数配置
2.2.1 留出法（hold out）
主要思路：

将数据集划分为两个互斥的集合，其中一个作为训练集S，另一个作为测试集T。在S上训练出模型后，用T评估其测试误差，作为对泛化误差的估计。

注意问题：

1.训练/测试集的划分要尽可能保持数据分布的一致性，比如在分类任务中采取“分层采样”的方式，保留类别比例；

2.给定训练/测试集样本比例后，仍存在多种划分方式对数据集D进行分割，因此一般要采用若干次随机划分/重复进行实验评估后取平均值作为留出法的评估结果；

3.从“偏差-方差”角度来理解，测试集小时，评估结果的方差较大；训练集小时，评估结果的偏差较大。对评估结果的保真性（fidelity）没有完美的解决方案，常见做法是将大约2/3~4/5的样本用于训练，剩余样本用于测试；
2.2.2 交叉验证法（cross validation）

主要思路：

将数据集D划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后每次用k-1个子集的并集作为训练集，余下的子集作为测试集，就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。

注意问题：

1.交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值，故又将交叉验证法称为“k折交叉验证”（k-fold cross validation）；

2.与留出法相似，子集有多种划分方式，为减小因样本划分不同而引入的差别，k折交叉验证通常要随即使用不同的划分方法p次，最终的评估结果是这p次k折交叉验证结果的均值；

3.交叉验证法的一个特例：留一法（Leave-One-Out），即每个子集只包含一个样本。其优点在于只比初始数据集少了一个样本，缺点在于计算开销在数据集很大的情况下过大；

2.2.3自助采样法（bootstrap sampling）

主要思路：

以自助采样法（bootstrap sampling）为基础，每次从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到。重复执行多次，得到规模与给定数据集一样大的新数据集。

注意问题：

1.初始数据集中约有36.8%的样本未出现在采样数据集中，这些样本可用于测试；

2.自助法适用于数据集较小，难以有效划分训练/测试集的情况；

3.缺点：自助法产生的数据集改变了初始数据集的分布，会引入估计偏差；

2.2.4调参与最终模型

1.算法有穷，参数配置无穷；

2.对每个参数需选定范围与变化步长；

3.模型在训练过程中要使用所有样本；

4.模型评估与选择中用于评估测试的数据集常被称为“验证集”（validation set）用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集，基于验证集上的性能来进行模型选择和调参；

2.3性能度量

性能度量：衡量模型泛化能力的评价指标，反映了任务需求。模型好坏不仅取决于算法和数据，还决定于任务需求。

2.3.1错误率与精度

错误率：分类错误的样本数占样本总数的比例

精度：分类正确的样本数占样本总数的比例
2.3.2查准率，查全率，F1
在这里插入图片描述

这篇关于2021-10-14的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

2021-10-14

相关编程文章