首页 > 其他 > 详细

基于pandas的数据清洗

时间:2021-02-07 18:36:30      阅读:22      评论:0      收藏:0      [点我收藏+]

数据清洗

1、处理空值:过滤,删除,填充

2、处理重复数据:.drop_duplicates(keep = ‘first‘) 删除重复行

3、处理异常值:异常值(极值等)可以用均值去替换

 

1、空值

1.1 空值的区别

pandas里头有两种空值类型

type(None)   # NoneType  None不可以参与运算,

type(np.nan)  # float  Nan可以参与运算

技术分享图片

 

 技术分享图片

 

 1.2 空值处理

方式1: 对空值进行过滤(删除空所在的行数据)

         通过.isnull()方法 判断空值

    通过.any(axis=1) 方法 判断行是否有空值,行中有空值 返回True

    通过.index 获取空值行 的行号索引

    通过.drop(labels=indexs,axis=0) 删除有空值的行

    

    或者通过.all()方法 判断行是否没有空值,行中无空值 返回True

    通过.loc[] 逻辑索引 获得无空值的所有行

技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 方式2: .dropna(axis=0) 可以直接删除 含有空值的行

 方式3: .fillna(axis=0,method=‘ffilll‘) 使用fillna方法 对空值进行填充,可以用vaulue=99指定填充,也可以用method=‘ffilll’向前填充,method=‘bfill‘向后填充, 使用均值填充

技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 2、重复值

 

 

 技术分享图片

 

 技术分享图片

 

 3、异常数据

技术分享图片

 

 

基于pandas的数据清洗

原文:https://www.cnblogs.com/Teyisang/p/14384717.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!