模型,算法,数据的结与“解”

2022/2/25 11:51:40

本文主要是介绍模型,算法,数据的结与“解”,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

前一篇写过关于数据的认知,感觉理解的还是不到位,再写一次。
采用周志华老师出版的西瓜书来阐述相关概念:

数据(raw data/data):一般包括未经处理的样本(图片,文本,声音,视频),经过处理(数值,向量),也是客观事物的属性、数量、位置及相关关系的抽象表示。数据集,样本(记录),特征(反应对象在某方面的表现,也称为属性),数据标注(打标签)。见 数据的认知。

数据集一般会被划分为训练集和测试集,很多时候还会划分出验证集。训练集用于训练得到神经网络模型,然后用验证集验证模型的有效性,挑选获得最佳效果的模型,直到我们得到一个满意的模型为止。

算法(algorithm): 把你的数据输入你认为可能是佳选择的机器学习算法,并行或依次运行这些算法,最后评估算法的表现,选出最好的那个。在决定使用哪种算法时,必须考虑数据的类型和种类。训练过程需要依据某种章法进行运算。这个章法,就是算法。

算法 ==(数据—>模型),经验数据 + 算法 == 模型

训练:根据已经被指定的 f(x) 的具体形式——模型类型,结合训练数据,执行某个学习算法,计算出其中各个参数的具体取值的过程。

模型(model): 通过训练数据得到的结果(从数据中学到的结果),可以用来预测,线性模型(线性回归,逻辑回归),非线性模型(神经网络,深度学习和支持向量机),目标是很好的适用于"新样本"(泛化能力)。

在这里插入图片描述

**特征工程:**确定用哪些特征来表示数据;确定用什么方式表达这些特征(数据增强)。

使模型更易于解释(比如分箱)
抓取更复杂的关系(比如神经网络)
减少数据冗余和维度(比如主成分分析)
重新缩放变量(比如标准化或正则化)

算法工程师的职责包括:研发新算法;针对现实问题构造目标函数,选取并优化算法求解;将他人研究的最新算法应用到自己的业务问题上。



这篇关于模型,算法,数据的结与“解”的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程