数据分析(python系)
2021/7/10 1:05:45
本文主要是介绍数据分析(python系),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
就业市场调查报告
- 技能要求
- 用人单位类型
- 工作内容
- 薪酬
- 发展路径
技能要求
流程:SEMMA 流程
S:Sample 搜集数据,抽样
问卷、数据库、实验室、仪器设备记录
E:Explore 探索
离散变量分布比例、连续变量的分布形态(正态、偏态?)、数据的异常和缺失、特征选择
M:Modify 数据修正
类型转换、一致性处理(单位)、异常值和缺失值处理、数据形态的转换
M:Model 数据建模(挖掘要用)
A:Assess 模型评估
RMSE,KS
预测
分析与挖掘的区别:
数据分析需要技能:SQL 非常重要
参考文章1
数据收集——SQL
数据清洗与探索——excel/python
数据建模——python
结果呈现——PPT
参考文章2
(1)能够综合使用各种数理统计、数据分析、制表绘图等软件进行图表、图像以及文字处理;
(2) 掌握常用的数据统计、分析方法,有敏锐的洞察力和数据感觉,优秀的数据分析能力;
(3)能够综合使用各种数理统计、数据分析、数据挖掘、制表绘图等软件进行具有基本数据美感的图表、图像以及文字处理 ;
(4)具备良好的行业分析、判断能力、及文字表达能力;
(5)理解网站运营的常识,能从问题中引申出解决方案,提供设计改进建议;
(6)具有良好经济学、统计学及相关领域的理论基础,熟悉数理统计、数据分析或市场研究的工作方法,具有较强的数据分析能力;
(7)知识要求:同时具备统计学、数据库、经济学三个领域的基础知识;英语四级或以上、熟悉指标英文名称;具备互联网产品设计知识;
(8)具有深厚的数据分析、数据挖掘理论知识,深入了解相关技术;能熟练使用至少一种统计分析或数据挖掘工具;
参考文章3
数据处理能力
数据的存取、数据的清洗以及数据的展示,比如SQL,Python数据处理;
数据分析能力
数据分析和软件应用能力为主要需求,挖掘建模及算法能力成为数据分析师的标
配;
软实力
报告撰写与业务分析需求最为普遍,业务管理分析及汇报能力为主竞争力;
参考文章4
一、数据分析师需要具备的技能
熟悉Excel数据处理、数据敏感度较强、熟悉公司业务和行业知识、掌握数据分析方法、相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列、对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析、基本分析方法、高级分析方法
二、数据分析师的三大任务
分析历史、预测未来、优化选择
第三、数据分析师要求的8项技能
统计学、统计检验、P值、分布、估计、基本工具、Python、SQL、多变量微积分和线性代数、数据整理、数据可视化、软件工程、机器学习、数据科学家的思维、数据驱动、问题解决
第四、数据分析师要求的三大能力
统计学基础和分析工具应用、计算机编码能力、特定应用领域或行业的知识
参考文章5
用人单位类型
top10
电商、金融、数据服务、移动互联网、消费生活、企业服务、文娱|内容、游戏、社交、教育
参考文章
工作内容
生成数据表
常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据,Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也同时导入Numpy库。代码是最简模式,里面有很多可选参数设置,例如列名称、索引列、数据格式等等。
检查数据表
Python中使用shape函数来查看数据表的维度,也就是行数和列数。你可以使用info函数查看数据表的整体信息,使用dtypes函数来返回数据格式。Isnull是Python中检验空值的函数,你可以对整个数据表进行检查,也可以单独对某一列进行空值检查,返回的结果是逻辑值,包含空值返回True,不包含则返回False。使用unique函数查看唯一值,使用Values函数用来查看数据表中的数值。
数据表清洗
Python中处理空值的方法比较灵活,可以使用Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数,与之对应的是astype函数,用来更改数据格式,Rename是更改列名称的函数,drop_duplicates函数删除重复值,replace函数实现数据替换。
数据预处理
数据预处理是对清洗完的数据进行整理以便后期的统计和分析工作,主要包括数据表的合并、排序、数值分列、数据分组及标记等工作。在Python中可以使用merge函数对两个数据表进行合并,合并的方式为inner,此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序,使用where函数完成数据分组,使用split函数实现分列。
数据提取
主要是使用三个函数:loc、iloc和ix,其中loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。除了按标签和位置提起数据以外,还可以按具体的条件进行数据,比如使用loc和isin两个函数配合使用,按指定条件对数据进行提取。
数据筛选汇总
Python中使用loc函数配合筛选条件来完成筛选功能,配合sum和 count函数还能实现excel中sumif和countif函数的功能。Python中使用的主要函数是groupby和pivot_table。groupby是进行分类汇总的函数,使用方法很简单,制定要分组的列名称就可以,也可以同时制定多个列名称,groupby 按列名称出现的顺序进行分组。
参考文章
薪酬
城市、工作经验与薪水的关系
技能要求与薪水的关系
参考文章
发展路径
数据分析师岗位对于工作经验要求最多的是1年经验、2年经验以及3-4年经验,1-4年的工作经验要求占到了所有数据的91.11%。近些年科学技术的突飞猛进,得益于互联网和智能手机的发展,数据分析、大数据和人工智能行业逐渐兴起,因兴起时间较短,所以数据分析师岗位对于工作经验的要求比较友好
随着经验的提升,数据分析师的薪酬也在不断提高。而且并不会因为年龄的增长导致收入下降,是个值得深入的职业。
想要在这个行业有一个长远的发展,想要成为一名合格乃至优秀的数据分析师,除了需要不断积累、学习各种技能和知识以外,还要多思考,多总结,不断培养自己的数据思维以及分析能力。
学习和实际规划
- 技能目标
- 具体成果
技能目标
本学期的数据库原理与设计课程已学习SQL server,假期打算主要学习利用python学习数据的获取以及数据的清洗与预分析。
数据获取
了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。
掌握基础的爬虫之后,还需要一些高级技巧。比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie等等,来应对不同网站的反爬虫限制。爬虫可以说是最为灵活、有效的数据获取方式。
数据清洗与预分析
很多时候拿到的数据是不干净的,数据的重复、缺失、异常值等等。这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据行进行删除或填充
重复值处理:重复值的判断与删除
空格和异常值处理:清楚不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、图形绘制等
从数据处理开始,就需要介入编程知识了,但不必把Python的教程完全啃一遍,只需要掌握数据分析必备的那部分即可。
基本的数据类型:比如字符串、列表、字典、元组,不同的数据类型如何创建、进行增、删、改等操作,以及其中常用的函数及方法;
Python函数:学习如何去创建自己的函数,实现更丰富的定制化程序,知道在使用中如何调用;
控制语句:主要是条件语句和循环语句,利用不同的语句对流程进行控制,这是实现程序的自动化的基础。
Python中两个非常重要的库Numpy和Pandas也是需要掌握的,很多数据处理及分析方法就源于其中。
Numpy
数组创建:从已有的数组创建、从数值范围创建
数组切片:通过切片进行选择
数组操作:元素增删、数组维度修改、数组的分割及连接
Numpy函数:字符串函数、数学函数、统计函数
Pandas
数据准备:数据读取、创建数据表
数据查看:查看数据基本信息、查找空值和唯一值
数据清洗:缺失值处理、重复值处理、字符处理
数据提取:按标签值进行提取、按位置进行提取
数据统计:采样、汇总、基本的统计量计算
参考文章
具体成果
7/23:学习使用python进行基本爬虫技巧
8/6:学习掌握库Numpy
8/20:学习掌握库Pandas
学习资料
数据清洗 - 知乎 (zhihu.com)
python3 pandas库 - 知乎 (zhihu.com)
爬虫-后羿采集器
尚硅谷的《python基础》
黑马程序员的《python数据分析》
【python教程】数据分析——numpy、pandas、matplotlib
这篇关于数据分析(python系)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程