数据分析(python系)

2021/7/10 1:05:45

本文主要是介绍数据分析(python系),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

        就业市场调查报告

  • 技能要求
  • 用人单位类型
  • 工作内容
  • 薪酬
  • 发展路径

技能要求 

流程:SEMMA 流程

S:Sample 搜集数据,抽样

问卷、数据库、实验室、仪器设备记录

E:Explore 探索

离散变量分布比例、连续变量的分布形态(正态、偏态?)、数据的异常和缺失、特征选择

M:Modify 数据修正

类型转换、一致性处理(单位)、异常值和缺失值处理、数据形态的转换

M:Model 数据建模(挖掘要用)

A:Assess 模型评估

RMSE,KS

预测

分析与挖掘的区别:

数据分析需要技能:SQL  非常重要

参考文章1

数据收集——SQL

数据清洗与探索——excel/python

数据建模——python

结果呈现——PPT

参考文章2

(1)能够综合使用各种数理统计、数据分析、制表绘图等软件进行图表、图像以及文字处理;

(2) 掌握常用的数据统计、分析方法,有敏锐的洞察力和数据感觉,优秀的数据分析能力;

(3)能够综合使用各种数理统计、数据分析、数据挖掘、制表绘图等软件进行具有基本数据美感的图表、图像以及文字处理 ;

(4)具备良好的行业分析、判断能力、及文字表达能力;

(5)理解网站运营的常识,能从问题中引申出解决方案,提供设计改进建议;

(6)具有良好经济学、统计学及相关领域的理论基础,熟悉数理统计、数据分析或市场研究的工作方法,具有较强的数据分析能力;

(7)知识要求:同时具备统计学、数据库、经济学三个领域的基础知识;英语四级或以上、熟悉指标英文名称;具备互联网产品设计知识;

(8)具有深厚的数据分析、数据挖掘理论知识,深入了解相关技术;能熟练使用至少一种统计分析或数据挖掘工具;
参考文章3

数据处理能力

数据的存取、数据的清洗以及数据的展示,比如SQL,Python数据处理;

数据分析能力

数据分析和软件应用能力为主要需求,挖掘建模及算法能力成为数据分析师的标

配;

软实力

报告撰写与业务分析需求最为普遍,业务管理分析及汇报能力为主竞争力;

参考文章4

一、数据分析师需要具备的技能

熟悉Excel数据处理、数据敏感度较强、熟悉公司业务和行业知识、掌握数据分析方法、相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列、对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析、基本分析方法、高级分析方法

二、数据分析师的三大任务

分析历史、预测未来、优化选择

第三、数据分析师要求的8项技能

统计学、统计检验、P值、分布、估计、基本工具、Python、SQL、多变量微积分和线性代数、数据整理、数据可视化、软件工程、机器学习、数据科学家的思维、数据驱动、问题解决

第四、数据分析师要求的三大能力

统计学基础和分析工具应用、计算机编码能力、特定应用领域或行业的知识
参考文章5

用人单位类型

top10

电商、金融、数据服务、移动互联网、消费生活、企业服务、文娱|内容、游戏、社交、教育

参考文章

工作内容

生成数据表

常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据,Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也同时导入Numpy库。代码是最简模式,里面有很多可选参数设置,例如列名称、索引列、数据格式等等。

检查数据表

Python中使用shape函数来查看数据表的维度,也就是行数和列数。你可以使用info函数查看数据表的整体信息,使用dtypes函数来返回数据格式。Isnull是Python中检验空值的函数,你可以对整个数据表进行检查,也可以单独对某一列进行空值检查,返回的结果是逻辑值,包含空值返回True,不包含则返回False。使用unique函数查看唯一值,使用Values函数用来查看数据表中的数值。

数据表清洗

Python中处理空值的方法比较灵活,可以使用Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数,与之对应的是astype函数,用来更改数据格式,Rename是更改列名称的函数,drop_duplicates函数删除重复值,replace函数实现数据替换。

数据预处理

数据预处理是对清洗完的数据进行整理以便后期的统计和分析工作,主要包括数据表的合并、排序、数值分列、数据分组及标记等工作。在Python中可以使用merge函数对两个数据表进行合并,合并的方式为inner,此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序,使用where函数完成数据分组,使用split函数实现分列。

数据提取

主要是使用三个函数:loc、iloc和ix,其中loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。除了按标签和位置提起数据以外,还可以按具体的条件进行数据,比如使用loc和isin两个函数配合使用,按指定条件对数据进行提取。

数据筛选汇总

Python中使用loc函数配合筛选条件来完成筛选功能,配合sum和 count函数还能实现excel中sumif和countif函数的功能。Python中使用的主要函数是groupby和pivot_table。groupby是进行分类汇总的函数,使用方法很简单,制定要分组的列名称就可以,也可以同时制定多个列名称,groupby 按列名称出现的顺序进行分组。

参考文章

薪酬

城市、工作经验与薪水的关系

 

技能要求与薪水的关系

 

参考文章 

发展路径

数据分析师岗位对于工作经验要求最多的是1年经验、2年经验以及3-4年经验,1-4年的工作经验要求占到了所有数据的91.11%。近些年科学技术的突飞猛进,得益于互联网和智能手机的发展,数据分析、大数据和人工智能行业逐渐兴起,因兴起时间较短,所以数据分析师岗位对于工作经验的要求比较友好

随着经验的提升,数据分析师的薪酬也在不断提高。而且并不会因为年龄的增长导致收入下降,是个值得深入的职业。

想要在这个行业有一个长远的发展,想要成为一名合格乃至优秀的数据分析师,除了需要不断积累、学习各种技能和知识以外,还要多思考,多总结,不断培养自己的数据思维以及分析能力。

学习和实际规划

  • 技能目标
  • 具体成果

技能目标 

本学期的数据库原理与设计课程已学习SQL server,假期打算主要学习利用python学习数据的获取以及数据的清洗与预分析。

数据获取

了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。

掌握基础的爬虫之后,还需要一些高级技巧。比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie等等,来应对不同网站的反爬虫限制。爬虫可以说是最为灵活、有效的数据获取方式。

数据清洗与预分析

很多时候拿到的数据是不干净的,数据的重复、缺失、异常值等等。这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

选择:数据访问(标签、特定值、布尔索引等)

缺失值处理:对缺失数据行进行删除或填充

重复值处理:重复值的判断与删除

空格和异常值处理:清楚不必要的空格和极端、异常数据

相关操作:描述性统计、Apply、图形绘制等

从数据处理开始,就需要介入编程知识了,但不必把Python的教程完全啃一遍,只需要掌握数据分析必备的那部分即可。

基本的数据类型:比如字符串、列表、字典、元组,不同的数据类型如何创建、进行增、删、改等操作,以及其中常用的函数及方法;

Python函数:学习如何去创建自己的函数,实现更丰富的定制化程序,知道在使用中如何调用;

控制语句:主要是条件语句和循环语句,利用不同的语句对流程进行控制,这是实现程序的自动化的基础。

Python中两个非常重要的库Numpy和Pandas也是需要掌握的,很多数据处理及分析方法就源于其中。

Numpy

数组创建:从已有的数组创建、从数值范围创建

数组切片:通过切片进行选择

数组操作:元素增删、数组维度修改、数组的分割及连接

Numpy函数:字符串函数、数学函数、统计函数

Pandas

数据准备:数据读取、创建数据表

数据查看:查看数据基本信息、查找空值和唯一值

数据清洗:缺失值处理、重复值处理、字符处理

数据提取:按标签值进行提取、按位置进行提取

数据统计:采样、汇总、基本的统计量计算

参考文章

具体成果

7/23:学习使用python进行基本爬虫技巧

8/6:学习掌握库Numpy

8/20:学习掌握库Pandas

学习资料

数据清洗 - 知乎 (zhihu.com)

python3 pandas库 - 知乎 (zhihu.com)

爬虫-后羿采集器

尚硅谷的《python基础》

黑马程序员的《python数据分析》

【python教程】数据分析——numpy、pandas、matplotlib



这篇关于数据分析(python系)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程