数据探索性分析案例实现(EDA)之钻石数据分析

2021/6/19 6:28:28

本文主要是介绍数据探索性分析案例实现(EDA)之钻石数据分析,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

一、数据集及其分析

diamonds数据框包含5万余行,有10列属性,对应钻石的一些参数值。

 

carat:克拉(钻石或其他宝石的重量单位,等于200毫克)

 

cut:切; 割,由低到高依次为Fair(恰当的), Good(好的), Very Good(非常好), Premium(优质的), Ideal(完美的)

 

color:颜色,无色钻石的颜色从无色到浅黄色分为D~Z共23个等级,其中以D等级的无色钻石颜色最好

 

clarity:钻石的纯净度,目前钻石纯净度等级有六大类别,分别是fl、if、vvs、vs、si、i,然后又被细分为十一个等级标准,分别是fl,if,vvs1,vvs2,vs1,vs2,si1,si2,i1,i2,i3。(从高到低)

 

depth:钻石全深百分比,圆钻的全深百分比是将全深(厚度)除以最小与最大直径的平均数,即为钻石厚度与直径的百分比。

 

table:钻石台宽比,根据美国宝石学院现行对钻石切磨分级的建议,台面依其大小可分为下列四种类型:

  小型台面:53%至60%

  中型台面:61%至64%

  大型台面:65%至70%

  超大型台面:71%或以上。

 

price:钻石的价格

 

x,y,z:分别代表了钻石的长,宽,高

 

二、问题提出

1.价格与钻石重量的关系

2.价格与钻石切割品质的关系

3.价格与钻石纯净度的关系

4.价格与钻石全深百分比的关系

5.价格与钻石台宽比的关系

 

三、数据清洗和预处理

1.读取展示数据

 

 

 2.缺失值统计

 

 

 没有缺失值,故无需填补删除缺失。

去除重复项

 

 

 

 

 

 

 

 

四、各变量相关性数据分析与可视化

1.运用Dtale库进行数据分析与可视化

 

 

 

2.汉化

 

 

 

 

 

 

3.描述

 

 

 

4.直方图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

与价格有关的折线图

 

 

 

 

 

 

 

 

 

 

 

 

与价格相关的柱状图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

与价格相关的散点图

 

 

 

 

 

 

 

 

 

与价格相关的饼状图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

与价格相关的词云图

 

 

 

 

 

 

 

 

 

五、主要结论

1.价格与钻石重量的关系

 

 

 钻石越重价格越高

 

2.价格与钻石切割品质的关系

 

 钻石切割越好价格越高

 

 

 

 

3.价格与钻石纯净度的关系

 

 

 钻石越纯净价格越高

 

4.价格与钻石全深百分比的关系

 

 

 钻石全深百分比在64%左右价格高

 

5.价格与钻石台宽比的关系

 

 

 台宽比在54%左右价格高

 



这篇关于数据探索性分析案例实现(EDA)之钻石数据分析的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程