第四节:Python中用pandas, numpy等清洗数据
2022/2/1 11:28:50
本文主要是介绍第四节:Python中用pandas, numpy等清洗数据,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
准备
import numpy as np import pandas as pd np.random.seed(12345) import matplotlib.pyplot as plt
1、 处理缺失数据
缺失值在很多数据分析应用中出现
pandas的目标之一就是尽可能“无痛”地处理缺失值
pandas对象的所有描述性统计信息默认情况下是排除缺失值的
pandas使用NaN(Not a Number)来表示缺失值
from numpy import nan as NA #重命名NA为空值
(1)过滤缺失值
(2)补全缺失值
有时可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据),而是希望通过其他方式填补那些“空洞”。
对于大多数情况而言,fillna方法是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:
2、数据转换
(1)移除重复值
(2) 使用函数或映射进行数据转换
对于许多数据集,可能希望根据数组、Series或DataFrame列中的值来实现转换工作。
(3)替代值
这篇关于第四节:Python中用pandas, numpy等清洗数据的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-09-27使用python 将ETH账户的资产打散
- 2024-09-26Python编程基础
- 2024-09-2610 种方法写出更好的 Python 代码
- 2024-09-25Python编程基础详解
- 2024-09-25Python编程入门教程
- 2024-09-25从零开始使用Python构建LLaMA 3
- 2024-09-23Python中理解和使用树形结构的简单教程
- 2024-09-23Python 编程基础入门
- 2024-09-18初探Python股票自动化交易:入门指南
- 2024-09-18Python量化入门:轻松掌握量化分析基础与实战