Python Pandas基础数据处理方法总结
2021/9/11 22:35:01
本文主要是介绍Python Pandas基础数据处理方法总结,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
目录
- 一、提取数据
- 1. 从csv文件
- 2. 从数据仓库
- 二、新建
- 1. DataFrame
- 三、数据筛选
- 1. 判断空值
- 2. 根据一列数据筛选
- 四、表之间
- 1. 横向合并(列相同情况下)
- 2. 纵向合并
- 3. merge
- 五、表内
- 1. 排序
- 2. 去重
- 3. 分组计数
- 4. groupby( )
- 5. iloc( )
- 6. 循环每列
- 7. 删除/选取列
- 五、统计学相关
- 1. crosstable
- 2. 卡方检验
- 3. SelectKBest
- 五、Jupyter Notebook相关
- 1. 展示所有行/所有列
一、提取数据
1. 从csv文件
pd.read_csv('/home/xxx/xxxx_0818.csv')
2. 从数据仓库
# 需要配置 spark.sql(''' select * from tbl where member_id = '001' ''').toPandas()
二、新建
1. DataFrame
# 一共三列,列名:feature,ex,pvalue: pd.DataFrame({'feature':[], 'ex':[], 'pvalue':[]} # 带数据: pd.DataFrame({'feature':index, 'ex':example, 'pvalue':p, 'chi':chi}, index = [1])
三、数据筛选
1. 判断空值
df_new[df_new['col1'].isnull() == False]
2. 根据一列数据筛选
dataframe[dataframe['col1']<0.05]
四、表之间
1. 横向合并(列相同情况下)
df_orig = df_orig.append(df_new, ignore_index=True)
2. 纵向合并
cols = gender.join(is_married) cols = basic.join(age_segment1)
3. merge
member_level_merge = pd.merge(member_level, m_info, on = 'member_id', how = 'left')
五、表内
1. 排序
dataframe.sort_values(['col1'], ascending = False)
2. 去重
dataframe.drop_duplicates('member_id')
3. 分组计数
table['date_difference'].value_counts() table.groupby('date_difference).size()
4. groupby( )
在这里插入代码片
5. iloc( )
table.iloc[:, 0:3] # 第一至三列
6. 循环每列
for index, row in dataframe.iteritems(): print(index) # 打印每列的列名
或者
for col in df.columns: print(index) # 打印每列的列名
7. 删除/选取列
X = df.drop(['col1', 'col2', 'col3'], axis=1) # 删除列 y = df.label # 选取列
五、统计学相关
1. crosstable
pd.crosstab(label, feature, margins=True)
2. 卡方检验
# p-value scipy.stats.chi2_contingency(cross_table)[1] # chi^2 scipy.stats.chi2_contingency(cross_table)[0]
3. SelectKBest
from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 skb = SelectKBest(chi2, k=2) skb = skb.fit(cols, feat) skb.get_support()
五、Jupyter Notebook相关
1. 展示所有行/所有列
# 所有行 pd.set_option('display.max_rows', None) # 所有列 pd.set_option('display.max_columns', None)
这篇关于Python Pandas基础数据处理方法总结的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门