首页 > 编程语言 > 详细

python数据分析:数据索引——最关键的操作

时间:2020-07-27 17:47:07      阅读:76      评论:0      收藏:0      [点我收藏+]

前言

数据索引是数据分析中最关键的操作。在数据分析中经常需要选取固定的行列,在Excel中可以使用鼠标进行点选,但是敲命令的时候,例如python和R中不方便使用鼠标,这就需要灵活掌握数据的索引。如果数据索引不能熟练操作,就看不懂代码,后面的数据分析无法完成。

 

技术分享图片

 

数据索引

数据索引,也称为数据切片和切块,是使用不同的列或索引切分数据,实现从数据中获取特定子集的方式。DataFrame为二维数据,每一列均为一个同一类型数据,所以为Series,每一行可以为不同数据类型,所以,每一行数据为DataFrame一个子集,数据类型依然为DataFrame。

pandas索引常用五种方法,loc iloc ix at iat。ix官方已不再推荐使用。其实笔者觉得pandas的索引操作不如R的方便。不过也够用。目前主要使用的为loc和iloc,两者比较容易混淆,这里按照官方方法提供一个简单的快速记忆方法loc代表location,使用标签来索引,也就是行名或者列名,而iloc中的i解读为integer,即integerlocation通过数字索引值来定位,也就是行号或者列号。

x.loc[ [‘行名1’, ‘行名2’, ‘行名3’……]     , [‘列名1’,‘列名2’……]   ]
x.iloc[ [行号1,行号2,行号3……]     ,   [列号1,列号2……]   ]

 

利用数字进行索引

pandas可以使用行名列名进行索引,也可以使用数字作为索引,具体使用哪种方式,要看具体使用场景,灵活使用,如果行列数太多,使用行名列名更加方便,如果要选取一个范围,使用数字更加方便。

如果要使用数字进行索引,则需要使用iloc标签,行在前列在后,中间用逗号“,”分割,如果全部选取,用冒号“:”代替。其中冒号也可以用来表示一定范围。

特别注意, python中索引值从0开始。并且不包含右侧边界。例如0:15,代表从第一个值到第15个值。

技术分享图片

 

使用数字索引

mtcars[0:5]
mtcars.iloc[ 0:5 ,:  ]
mtcars.iloc[1]
#负数索引
mtcars.iloc[:,-1]

 

选取奇数行和偶数行

#奇数行
mtcars.iloc[np.arange(0,32,2)]
#偶数行
mtcars.iloc[np.arange(1,32,2)]

 

利用行名列名进行索引

如果想选取固定的行,使用点号,是最方便的方式,类似于R中数据框索引使用“$”,为什么行不行呢?因为数据分析中更多时候是按列处理数据。这里注意由于python中点号有特殊作用,所以,源文件列名中最好不要有点号和空白,可以使用下划线替代

mtcars.cyl
mtcars.cyl.size

 

直接使用行名列名选取数据

mtcars[mpg]
mtcars[[mpg,cyl]]
mtcars.loc[:,[cyl]]
mtcars.loc[[Fiat 128,Valiant]]
mtcars.loc[:,[disp,hp]]

 

删除固定行或列

#删除行列
mtcars.drop(columns=[cyl,mpg])
mtcars.drop(index=[Valiant])
mtcars[mtcars.index != 5]
mtcars[mtcars.index!=Volvo 142E]

 

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:基因学苑

python数据分析:数据索引——最关键的操作

原文:https://www.cnblogs.com/zwhy8/p/13384979.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!