首页 > 其他 > 详细

第7章 数据清洗和准备

时间:2020-01-10 20:49:46      阅读:64      评论:0      收藏:0      [点我收藏+]

判断是否含有缺失数据

isnull()
删除缺失数据
data.dropna()
data.dropna(how=‘all‘)
传入how=‘all‘将只丢弃全为NA的那些行

用这种方式丢弃列,只需传入axis=1即可
data.dropna(axis=1, how=‘all‘)
丢弃一列全部为null的数据
df.dropna(thresh=2)
如果含有null的数量少于2个,则会保留
技术分享图片

填充缺失数据

df.fillna(0)
是通过一个字典调用fillna,就可以实现对不同的列填充不同的值:
技术分享图片

 

 fillna默认会返回新对象,但也可以对现有对象进行就地修改:

技术分享图片

 

向后填充值

 技术分享图片

 

 

 可以限制填充次数

技术分享图片

数据转换

移除重复数据

判断是否是重复行
技术分享图片

 

 去除重复列的值,判断全体

技术分享图片

 

 

 过滤某一列

技术分享图片

 

 

 保留最后一个重复列

技术分享图片

 

 

利用函数或映射进行数据转换

技术分享图片

 

技术分享图片

 

 先转小写再对应

 技术分享图片

 

替换值

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 将-999替换为np.nan       -1000替换为0

技术分享图片

 

 

重命名轴索引

技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 

离散化和面元划分

技术分享图片

 

 

技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 

分4份保留到小数点后2位
技术分享图片

 

 qcut

技术分享图片

 

 

检测和过滤异常值

盖帽法
np.sign(data)可以复制符号
技术分享图片

 

 

排列和随机采样

生成司机数数组
技术分享图片

 

 技术分享图片

 

计算指标/哑变量

 技术分享图片

 

 

技术分享图片

 

 技术分享图片

 

 

字符串操作

技术分享图片

 

 技术分享图片

 

 

技术分享图片

 

 技术分享图片

 

 

 

第7章 数据清洗和准备

原文:https://www.cnblogs.com/mypath/p/12177926.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!