python数据分析中使用pandas进行预处理 的 转换数据
2021/4/8 20:55:43
本文主要是介绍python数据分析中使用pandas进行预处理 的 转换数据,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
转换数据
(1)哑变量处理 类别型 数据
(2)使用等宽法、等频法和聚类分析方法 离散化 连续型 数据
1.哑变量处理类别型数据
import pandas as pd import numpy as np detail=pd.read_csv('../数据分析/detail.csv',encoding='gbk') data=detail.loc[0:5,'dishes_name'] print('哑变量处理之前:\n',data) print('哑变量处理之后:\n',pd.get_dummies(data))
2.离散化连续型数据
① 等宽法离散化
price=pd.cut(detail['amounts'],5) print(price.value_counts())
② 等频法 离散化
def SamRateCut(data,k): w=data.quantile(np.arange(0,1+1.0/k,1.0/k)) data=pd.cut(data,k) return data result=SamRateCut(detail['amounts'],5).value_counts() print(result)
③ 聚类分析法 离散化
def KmeanCut(data,k): from sklearn.cluster import KMeans #建立模型 kmodel=KMeans(n_clusters=k) kmodel.fit(data.values.reshape((len(data),1))) #训练模型 #输出聚类中心并排序 c=pd.DataFrame(kmodel.cluster_centers_).sort_values(0) w=c.rolling(2).mean().iloc[1:] #相邻两项求中点,作为边界 w=[0]+list(w[0]+data.max()) #把首末边界点加上 data=pd.cut(data,w) return data result=KmeanCut(detail['amounts'],5).value_counts() print('菜品售价聚类离散化后 各个类别数目分布状况为:\n',result)
这篇关于python数据分析中使用pandas进行预处理 的 转换数据的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门