1.通过传入一个list的值来创建一个Series对象,并让pandas创建一个默认的序号索引:
import pandas as pd import numpy as np s = pd.Series([1,3,6,np.NAN,23,1]) print(s) >>>> 0 1.0 1 3.0 2 6.0 3 NaN 4 23.0 5 1.0 dtype: float64
2.通过传入一个list的值来创建一个Series对象,并让pandas创建一个自定义的序号索引(以时间日期为例):
import pandas as pd import numpy as np k = pd.date_range(‘2018-8-10‘,periods=2) #data_range()为日期函数 print(k) #索引指定为k s = pd.Series([[1,2,3],[4,5,6]],index=k) print(s) >>>>> DatetimeIndex([‘2018-08-10‘, ‘2018-08-11‘], dtype=‘datetime64[ns]‘, freq=‘D‘) 2018-08-10 [1, 2, 3] 2018-08-11 [4, 5, 6] Freq: D, dtype: object
3.通过传入一个list的值来创建一个DataFrame对象,并让pandas创建一个默认的序号索引:(DataFrame对象好比是一个EXCEL表格,索引值已经默认生成,每一列是一类内容)
import pandas as pd import numpy as np s = pd.DataFrame(np.random.randn(6,4), columns=list(‘ABCD‘)) print(s) >>> A B C D 0 -1.493380 0.009195 1.548569 0.050338 1 -0.139341 1.246836 0.309992 -0.914084 2 1.610661 -2.255323 1.421774 0.152989 3 -0.299182 -1.723575 0.305811 -0.561350 4 -0.189062 0.872633 0.649384 1.204343 5 0.890815 0.109442 0.466272 -1.103311
4.通过字典来创建DataFrame对象:
import pandas as pd import numpy as np df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]), ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]), ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]), }) print(df) >>> 景点 省份 门票 0 故宫 北京 80.0 1 泰山 山东 NaN 2 圆明园 北京 20.0 3 黄山 安徽 130.0 4 赤壁 湖北 75.0 5 黄鹤楼 湖北 NaN
5.对DataFrame对象进行操作:
import pandas as pd import numpy as np df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]), ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]), ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]), }) print(df.dropna()) >>> 景点 省份 门票 0 故宫 北京 80.0 2 圆明园 北京 20.0 3 黄山 安徽 130.0 4 赤壁 湖北 75.0
2.将空值赋值:df.pd.fillna(value=)
import pandas as pd import numpy as np df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]), ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]), ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]), }) print(df.fillna(value=56)) >>> 景点 省份 门票 0 故宫 北京 80.0 1 泰山 山东 56.0 2 圆明园 北京 20.0 3 黄山 安徽 130.0 4 赤壁 湖北 75.0 5 黄鹤楼 湖北 56.0
3.groupby分组:
import pandas as pd import numpy as np df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]), ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]), ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]), }) #数据分组统计 df[‘A‘].groupby(df[‘B‘]).mean() A按照B进行分组 print(df[‘门票‘].groupby(df[‘省份‘]).max()) >>> 省份 北京 80.0 安徽 130.0 山东 NaN 湖北 75.0 Name: 门票, dtype: float64
6.字符串方法
import pandas as pd import numpy as np s = pd.Series([‘A‘, ‘B‘, ‘C‘, ‘Aaba‘, ‘Baca‘, np.nan, ‘CABA‘, ‘dog‘, ‘cat‘]) #将大写变成小写 print(s.str.lower()) >>> 0 a 1 b 2 c 3 aaba 4 baca 5 NaN 6 caba 7 dog 8 cat dtype: object
原文:https://www.cnblogs.com/plhc/p/9457857.html