pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,最常用的数据结构是:序列Series和数据框DataFrame,Series类似于numpy中的一维数组,类似于关系表的一列;而DataFrame类似于二维的关系表。
>>> import pandas as pd >>> from pandas import Series,DataFrame
用dtype属性来显示元素的数据类型,pandas主要有以下几种dtype:
1,查看数据类型
查看数据框中某一列的数据类型:
df[‘col_name‘].dtypes
2,转换数据类型
astype(dtype) 函数用于把数据框的列转换为特定的类型,dtype可以是pandas支持的类型,也可以是numpy.dtype,也可以是Python类型:
把数据框的列改变为字符串类型,str是python类型,‘object‘是pandas支持的字符串类型:
df[‘col_name‘].astype(str) df[‘col_name‘].astype(‘object‘)
3,其他转换类型的函数
使用Pandas提供的函数如to_numeric()、to_datetime()
Series 是由一组有序的数据以及与之相关的索引组成,可以通过索引来访问Series对象中的元素。
1,创建序列
仅使用一组数据就可以产生最简单的Series,此时索引是从0依次递增的整数:
obj=Series([4,7,-5,3])
可以通过Series对象的values和index属性查看序列的值和索引:
obj.values ## array([4,7,-5,3]) obj.index ## Int64Index([0,1,2,3])
可以使用自定义的列表来创建序列:
obj=Series([4,7,-5,3],index=[‘d‘,‘b‘,‘a‘,‘c‘])
如果数据存储在一个Python字典结构中,也可以直接通过字典来创建Series:
>>> sdata = {‘b‘: 12, ‘a‘: 13, ‘d‘: 14, ‘c‘: 10} >>> sd=pd.Series(sdata) b 12 a 13 d 14 c 10 dtype: int64
2,访问序列的元素
通过索引来访问序列的元素,并可以修改序列元素的值
sd[‘a‘]=4
参考文档:
Python 学习 第23篇:pandas 之一( Series)
原文:https://www.cnblogs.com/ljhdo/p/11514685.html