2020 年面向初学者的 9 个数据科学项目
2020/6/8 14:26:27
本文主要是介绍2020 年面向初学者的 9 个数据科学项目,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
作者:Rashi Desai翻译:疯狂的技术宅
原文:https://towardsdatascience.co...
如果你对对数据分析、数据科学或是与数据相关的东西感兴趣,可以通过下面的清单来学习。
1. 信用卡欺诈检测
预计到 2022 年,拥有信用卡的人数将会接近 12 亿。为了确保信用卡交易的安全性,必须对其活动进行有效的监视。信用卡公司应该能够识别出欺诈性的信用卡交易,从而不会向客户收取未购买商品的费用。
信用卡数据集中包含欺诈和非欺诈交易的组合,目标是预测给定的测试交易是否存在欺诈。
要使用的算法:
由于目标变量是分类变量,所以可以使用以下一系列机器学习算法来解决该问题:
- 逻辑回归
- 决策树
- 神经网络
示例代码
- 用 R-DataFlair 的机器学习检测信用卡欺诈
- 基于 Python 的信用卡欺诈检测项目
2. 客户细分
客户细分是把客户分成多个群体的过程,这些群体在产品的销售或营销的方式上具有相似性,例如性别、年龄、兴趣、人口统计资料、经济状况、地理位置、行为方式、消费习惯以及其他更多维度。
客户细分是“无监督学习”的最重要应用之一。通过聚类技术,公司可以确定客户的细分市场,从而使他们可以定位潜在的用户群。
公司通过聚类过程来预见或映射具有类似行为的客户群,用来识别和定位潜在的用户群。
要使用的算法:
K-均值聚类,分层聚类是最主要的聚类方法。还有一些其他的聚类算法:
- 分割法(Partitioning method)
- 模糊聚类(Fuzzy clustering)
- 基于密度的聚类
- 基于模型的聚类
另外一旦收集了数据,公司就能够更深入地了解客户的喜好,并发现有价值的细分市场的需求,从而使他们获得最大的利润。这使他们能够更有效地制定营销策略,并最大程度地降低投资风险。
示例代码
- R 语言数据科学项目——用机器学习进行客户细分
- Python 项目——客户细分
3. 情感分析
情感被定义为对某一情况或事件的看法或态度;意见是数据科学领域中至关重要的话题。由于它在当今的社交媒体时代具有很大的关联性,并且可以解决许多商业问题,所以成为该领域最热门的话题之一。
借助情感分析,你可以发现文档、网站、社交媒体的时间线中所反映的观点的性质。人们应该具有快乐、悲伤、愤怒、积极或消极、沮丧、仇恨、爱等各种情感。
在当今时代,任何数据驱动型的组织都必须重视情感分析模型的结果,借此确定其客户的态度,并针对产其品或服务定位目标客户。
一些情报机构会对 Twitter 进行情绪分析以获取情报。
要使用的算法:
- 朴素贝叶斯
- 决策树
- Tidytext 包
示例代码
- 顶级数据科学项目——R 语言情感分析
- 简明 Python 情感分析教程
4. 语音情感识别
在人类的活动中,言语、场景、产品或体验所附带的情感决定着很多事情。
SER(语音情感识别 Speech Emotion Recognition)可以说是今年夏天一项引人注目的数据科学项目。它试图从语音(语音样本)中感知人类的情感。另外为了感知到人的情感,还将不同的声音文件用作数据集。 SER 本质上是从录音中提取情感,并专注于特征提取。
在用 Python 处理项目时,你还可以通过用于分析音乐和音频的 Librosa 包积累知识。
Vox 名人数据集可以成为执行语音情感识别的良好起点。
用到的算法:
- 卷积神经网络(CNN)
- .递归神经网络(RNN)
- 神经网络(NN)
- 高斯混合模型(GMM)
- 支持向量机(SVM)
示例代码
- Python迷你项目——基于 Librosa 的语音情感识别
- GitHub 上的语音情感识别项目列表
5.预测分析
预测分析的目的是对未来的事件进行预测。
它涵盖了预测模型、机器学习和数据挖掘等各种统计技术,可以通过分析当前和历史数据来识别风险和机会。
例子:
- 贷款预测数据:预测贷款是否会得到批准
- 预测 HVAC 需求:将天气预报与建筑系统相结合
- 客户关系管理
- 临床决策支持系统
- 客户和员工保持率和流失率
- 项目风险管理
示例代码
- R 语言实现的房贷预测
- 房屋贷款预测
6. 时间序列分析和建模
时间序列是按时间顺序进行索引,把一系列数据点列出或绘制在图形中。
时间序列是数据科学中最常用的技术之一,有着广泛的应用范围,包括天气预报、预测销售、分析年趋势、预测吸引力、网站访问量、比赛排名等。
商业机构一次又一次地用 kon 时间序列数据来分析未来的数字。
通过时间序列分析,我们可以得到每小时观看的广告、每天在游戏中的花销、产品趋势的变化等。
示例代码
- 时间序列建模
- 时间序列 Python 教程
7. 回归分析
回归分析的目的是根据历史数据预测结果。
回归分析是一种强大的统计检验,可以检查两个或多个目标变量之间的关系。尽管回归分析的类型有很多,但它们的核心都是检查一个或多个自变量对目标(因变量)的影响。
例子:
- 沃尔玛销售数据:预测商店的销售
- 波士顿住房数据:预测自有住房的中位数
- 葡萄酒质量预测:预测葡萄酒的质量
- 黑色星期五销售预测:预测一个家庭的购买金额
用到的算法:
这取决于目标变量的性质:是数字还是分类
- CART——因子目标
- 决策树——因子目标
- 线性回归——数字目标
- 逻辑回归——因子目标
8. 推荐系统
推荐系统是一个使用过滤过程,并根据用户的偏好和喜好提供各种内容的平台。
推荐系统把相关用户的信息作为输入,并使用机器学习模型从参数评估中返回建议。从 Amazon 到 Zappos,推荐系统无处不在。这是一种数据科学家需要了解的典型的机器学习算法。
例如,Netflix 能够为你推荐和浏览历史记录相似的电影或节目,或是与你爱好相似的其他用户过去看过的电影或节目。
推荐系统有两种类型-
- 基于内容的推荐系统:基于用户的数据提供有代表意义的推荐。根据该数据生成用户配置文件,然后将其用于向用户提出建议。当用户提供更多的数据输入或着对建议采取行动时,引擎将会变得越来越准确。
- 协作过滤建议:提供与可能有着相似浏览历史或首选项的其他用户相关的建议。
示例代码
- R 语言实现的电影推荐系统
- Python 推荐系统
9. 探索性数据分析
探索性数据分析(EDA)实际上是数据分析过程中的第一步。通过它你可以充分利用所拥有的数据,弄清楚你想问什么问题,如何构架,最好地操纵它来获取所需要的答案。
EDA 用视觉和定量方法在现有数据中展示广泛的模式、趋势、离群值、意外结果等。探索性数据分析可以完成很多项目。在此我列出一些参考,或许能成为你的一个良好起点。
例子:
- 全球自杀率(数据集)
- 夏季奥运会模型(数据集)
- 世界幸福报告(数据集)
- 麦当劳菜单的营养成分(数据集)
这篇关于2020 年面向初学者的 9 个数据科学项目的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-23Springboot应用的多环境打包入门
- 2024-11-23Springboot应用的生产发布入门教程
- 2024-11-23Python编程入门指南
- 2024-11-23Java创业入门:从零开始的编程之旅
- 2024-11-23Java创业入门:新手必读的Java编程与创业指南
- 2024-11-23Java对接阿里云智能语音服务入门详解
- 2024-11-23Java对接阿里云智能语音服务入门教程
- 2024-11-23JAVA对接阿里云智能语音服务入门教程
- 2024-11-23Java副业入门:初学者的简单教程
- 2024-11-23JAVA副业入门:初学者的实战指南