pandas

时间：2018-08-11 00:44:33 阅读：187 评论：0 收藏：0 [点我收藏+]

1.通过传入一个list的值来创建一个Series对象，并让pandas创建一个默认的序号索引：

import pandas as pd
import numpy as np

s = pd.Series([1,3,6,np.NAN,23,1])
print(s)

>>>>
0     1.0
1     3.0
2     6.0
3     NaN
4    23.0
5     1.0
dtype: float64

2.通过传入一个list的值来创建一个Series对象，并让pandas创建一个自定义的序号索引（以时间日期为例）：

import pandas as pd
import numpy as np

k = pd.date_range(‘2018-8-10‘,periods=2) #data_range（）为日期函数
print(k)
#索引指定为k
s = pd.Series([[1,2,3],[4,5,6]],index=k)
print(s)

>>>>>
DatetimeIndex([‘2018-08-10‘, ‘2018-08-11‘], dtype=‘datetime64[ns]‘, freq=‘D‘)
2018-08-10    [1, 2, 3]
2018-08-11    [4, 5, 6]
Freq: D, dtype: object

3.通过传入一个list的值来创建一个DataFrame对象，并让pandas创建一个默认的序号索引：(DataFrame对象好比是一个EXCEL表格，索引值已经默认生成，每一列是一类内容)

import pandas as pd
import numpy as np

s = pd.DataFrame(np.random.randn(6,4), columns=list(‘ABCD‘))
print(s)

>>>
         A         B         C         D
0 -1.493380  0.009195  1.548569  0.050338
1 -0.139341  1.246836  0.309992 -0.914084
2  1.610661 -2.255323  1.421774  0.152989
3 -0.299182 -1.723575  0.305811 -0.561350
4 -0.189062  0.872633  0.649384  1.204343
5  0.890815  0.109442  0.466272 -1.103311

4.通过字典来创建DataFrame对象：

import pandas as pd
import numpy as np

df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]),
                   ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]),
                   ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]),
                   })
print(df)

>>>
    景点  省份     门票
0   故宫  北京   80.0
1   泰山  山东    NaN
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0
5  黄鹤楼  湖北    NaN

5.对DataFrame对象进行操作：

去除空值:df.pd.dropna()

import pandas as pd
import numpy as np

df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]),
                   ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]),
                   ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]),
                   })
print(df.dropna())

>>>
    景点  省份     门票
0   故宫  北京   80.0
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0

2.将空值赋值：df.pd.fillna(value=)

import pandas as pd
import numpy as np

df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]),
                   ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]),
                   ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]),
                   })
print(df.fillna(value=56))

>>>
   景点  省份     门票
0   故宫  北京   80.0
1   泰山  山东   56.0
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0
5  黄鹤楼  湖北   56.0

3.groupby分组：

import pandas as pd
import numpy as np

df = pd.DataFrame({‘景点‘:np.array([‘故宫‘, ‘泰山‘,‘圆明园‘,‘黄山‘,‘赤壁‘,‘黄鹤楼‘]),
                   ‘门票‘:np.array([80,np.NAN,20,130,75,np.NAN]),
                   ‘省份‘:np.array([‘北京‘,‘山东‘,‘北京‘,‘安徽‘,‘湖北‘,‘湖北‘]),
                   })
#数据分组统计  df[‘A‘].groupby(df[‘B‘]).mean() A按照B进行分组
print(df[‘门票‘].groupby(df[‘省份‘]).max())

>>>
省份
北京     80.0
安徽    130.0
山东      NaN
湖北     75.0
Name: 门票, dtype: float64

6.字符串方法

import pandas as pd
import numpy as np

s = pd.Series([‘A‘, ‘B‘, ‘C‘, ‘Aaba‘, ‘Baca‘, np.nan, ‘CABA‘, ‘dog‘, ‘cat‘])
#将大写变成小写
print(s.str.lower())

>>>
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

pandas

原文：https://www.cnblogs.com/plhc/p/9457857.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)