吃瓜教程1、2章

2021/11/16 23:42:06

本文主要是介绍吃瓜教程1、2章,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

第一章 绪论(概念巨多)

1.1 引言

学习算法:利用经验来改善系统自身性能,在计算机上从数据中产生“模型”的算法。

“模型”:泛指从数据中学得的结果。

1.2 基本术语

数据集:一组记录的集合。

示例/样本:每条记录关于一个事件或对象的描述

属性/特征:反映事件或对象在某方面的表现 或 性质 的事项。

属性的“取值”,叫属性值。

属性张成的空间叫: 属性空间/样本空间/输入空间。

每一个对象都在这个空间中找到自己的 坐标位置 , 这样一个示例也叫:特征向量。

那么我们常说“机器学习”的学习 “对计算机进行训练” 的训练又指的是什么?

从数据中学得模型的过程就是learning/training。

仅仅有判断是不够的,我们要做的是——预测。

关于示例结果的信息(如“好瓜”),称为“标记”。

预测的是离散值,这类学习任务叫:分类 classification

预测的是连续值,这类学习任务叫:回归 regression

学得模型后,使用该模型进行预测的过程:测试 testing

预测任务是希望通过对训练集进行学习,建立映射。

我们对训练集中的示例进行分组,每一组就是一个“簇”,但是在这种聚类学习中,我们对潜在的划分事先是不知道的。

而且学习中使用的训练样本通常不拥有标记信息。

所以这方面,根据数据是否拥有标记信息,将学习任务分为两类: 监督学习(eg:分类,回归) 无监督学习(eg:聚类)

学得模型适用于新样本的能力:称为“泛化”能力。

训练样本越多,关于它的结果(称之为未知“分布”)得到的结果越多,这样就越有可能获得具有强泛化学习能力。

1.3 假设空间

归纳学习: 狭义:从训练数据中学得概念

广义:从样例中学习

布尔学习

学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配“的假设。

1.4 归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑。

“奥卡姆剃刀”:若有多个假设与观察一致,则选最简单那个。

NFL定理:无论算法多聪明或多笨拙,它们的期望性能相同。

第二章 模型评估与选择

2.1 误差与过拟合

我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为:误差(error)。

  • 在训练集上的误差称为训练误差(training error)或经验误差(empirical error)。
  • 在测试集上的误差称为测试误差(test error)。
  • 学习器在所有新样本上的误差称为泛化误差(generalization error)。

机器学习模型和人学习是类似的,也有好学生和差学生:

  • 学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了,称为:过拟合(overfitting)。
  • 学习能太差,训练样本的一般性质尚未学好,称为:欠拟合(underfitting)。

过拟合问题还没有十分好的解决方案,过拟合是机器学习面临的关键障碍。

2.2 评估方法

我们往往有多种算法可供选择,我们希望得到的是泛化误差小的学习器,理想的解决方案是对模型的泛化误差进行评估,然后选择泛化误差最小的那个学习器。

2.3 训练集与测试集划分

2.3.1 留出法

2.3.2 交叉验证法

2.3.3 自助法

2.4 调参

大多数学习算法都有些参数(parameter) 需要设定,参数配置不同,学得模型的性能往往有显著差别,这就是通常所说的”参数调节”或简称”调参” (parameter tuning)。

2.5 偏差与方差

解释学习算法泛化性能的一种重要工具。

一般来说,偏差和方差是有冲突的,这叫做“偏差-方差窘境”。



这篇关于吃瓜教程1、2章的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程