首页 > 其他 > 详细

数据分析师入门——用 Pandas 进行数据预处理:数据清洗与可视化

时间:2019-12-30 12:36:20      阅读:77      评论:0      收藏:0      [点我收藏+]

这里只选取视频中的部分,详细资料还是去Datacastle下载看吧

数据清理的一些内容:

技术分享图片

格式转换:

比如Excel和数据库中关于时间的记录;它是字符串的格式来进行保存的,如果想对时间进行一些运算的话,就必须利用Python里的一些包。

缺失数据:

可以说是数据清理的最重要的一个问题。

那么,如何应对数据缺失问题呢?

技术分享图片

 

利用平均值、最常出现的值进行填充。(这是非常大的一个研究的方向)

异常数据:

出现不符合常识的数值

标准化:

 技术分享图片


 

数据清理实践

需要的包:

pandas:pip install pandas

seaborn:pip install seaborn

技术分享图片

技术分享图片

介绍了:

 user.describe

user.shape

user.loc等待方法

 

数据清理:

to_datetime方法转换成日期类型

技术分享图片

日期相减:

技术分享图片

技术分享图片

 

处理age异常:

技术分享图片

利用dropna()方法去掉NaN

 

技术分享图片

 

 

 

技术分享图片

绘制平均值的图: 

技术分享图片

只取年龄<90岁的人 

技术分享图片

由于很多都<10岁,不符合实际。再取年龄>10岁的

技术分享图片

柱状图

技术分享图片

数据分析师入门——用 Pandas 进行数据预处理:数据清洗与可视化

原文:https://www.cnblogs.com/JasonPeng1/p/12118924.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!