首页 > 其他 > 详细

使用panda了解数据集信息

时间:2020-06-22 19:25:11      阅读:73      评论:0      收藏:0      [点我收藏+]
htxx = pd.read_sql()

 

--------------阅览表格--------------

 

查看数据前几行(对表有一个大概的认知)默认前5,参数代表前几行

htxx.head()

技术分享图片

 

查看数据后几行,默认后5,参数代表后几行

htxx.tail()

 

查看有几行几列

htxx.shape

技术分享图片

 

 

 --------------查看字段类型--------------

 

查看数据字段的大概情况,包括类型,列字段格式,名称,占用内存等

htxx.info()

技术分享图片

 

 

查看某一列的数据类型

htxx.ht_price.dtype

技术分享图片

 

 

 --------------重复值--------------

 

查看唯一值的长度是否等于数据长度,如果大于说明有重复的数据,可用drop_duplicates()删除

len(htxx.ht_no.unique())

 

去除重复值,keep=first代表只保留第一个,如果是last则保留最后一个

drop_duplicates = htxx.drop_duplicates(subset=ht_no,keep=first)

 

 

--------------描述统计--------------

 

对列中数据进行计数(统计非0元素)

htxx.kh_name.value_counts()

技术分享图片

 

 

针对表中的数值型数据进行描述统计。一般分类数据用value_counts,数值数据用describe,这是最常用的两个统计函数。

htxx.describe()

技术分享图片

 

 

--------------排序--------------

 

对单列数据进行排列,by是排序的列或行,ascending是升序,True则降序,inplace表示排序后是否更新原数据

htxx.sort_values(by = ht_price,axis=0,ascending = False,inplace=False,ignore_index=True)

 

 

 对多列数据进行排列,部分参数使用list

htxx.sort_values(by = [‘ht_price‘,‘ht_no‘],axis=0,ascending = [False,True],inplace=False,ignore_index=True)

 

 

持续更新...

 

使用panda了解数据集信息

原文:https://www.cnblogs.com/xiaoqingSister/p/13178534.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!