首页 > 其他 > 详细

pandas

时间:2018-08-11 00:44:33      阅读:185      评论:0      收藏:0      [点我收藏+]

1.通过传入一个list的值来创建一个Series对象,并让pandas创建一个默认的序号索引:

import pandas as pd
import numpy as np

s = pd.Series([1,3,6,np.NAN,23,1])
print(s)

>>>>
0     1.0
1     3.0
2     6.0
3     NaN
4    23.0
5     1.0
dtype: float64

2.通过传入一个list的值来创建一个Series对象,并让pandas创建一个自定义的序号索引(以时间日期为例):

import pandas as pd
import numpy as np

k = pd.date_range(2018-8-10,periods=2) #data_range()为日期函数
print(k)
#索引指定为k
s = pd.Series([[1,2,3],[4,5,6]],index=k)
print(s)

>>>>>
DatetimeIndex([2018-08-10, 2018-08-11], dtype=datetime64[ns], freq=D)
2018-08-10    [1, 2, 3]
2018-08-11    [4, 5, 6]
Freq: D, dtype: object

3.通过传入一个list的值来创建一个DataFrame对象,并让pandas创建一个默认的序号索引:(DataFrame对象好比是一个EXCEL表格,索引值已经默认生成,每一列是一类内容)

import pandas as pd
import numpy as np

s = pd.DataFrame(np.random.randn(6,4), columns=list(ABCD))
print(s)

>>>
         A         B         C         D
0 -1.493380  0.009195  1.548569  0.050338
1 -0.139341  1.246836  0.309992 -0.914084
2  1.610661 -2.255323  1.421774  0.152989
3 -0.299182 -1.723575  0.305811 -0.561350
4 -0.189062  0.872633  0.649384  1.204343
5  0.890815  0.109442  0.466272 -1.103311

4.通过字典来创建DataFrame对象:

import pandas as pd
import numpy as np

df = pd.DataFrame({景点:np.array([故宫, 泰山,圆明园,黄山,赤壁,黄鹤楼]),
                   门票:np.array([80,np.NAN,20,130,75,np.NAN]),
                   省份:np.array([北京,山东,北京,安徽,湖北,湖北]),
                   })
print(df)

>>>
    景点  省份     门票
0   故宫  北京   80.0
1   泰山  山东    NaN
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0
5  黄鹤楼  湖北    NaN

5.对DataFrame对象进行操作:

  1. 去除空值:df.pd.dropna()
import pandas as pd
import numpy as np

df = pd.DataFrame({景点:np.array([故宫, 泰山,圆明园,黄山,赤壁,黄鹤楼]),
                   门票:np.array([80,np.NAN,20,130,75,np.NAN]),
                   省份:np.array([北京,山东,北京,安徽,湖北,湖北]),
                   })
print(df.dropna())

>>>
    景点  省份     门票
0   故宫  北京   80.0
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0

       2.将空值赋值:df.pd.fillna(value=)

import pandas as pd
import numpy as np

df = pd.DataFrame({景点:np.array([故宫, 泰山,圆明园,黄山,赤壁,黄鹤楼]),
                   门票:np.array([80,np.NAN,20,130,75,np.NAN]),
                   省份:np.array([北京,山东,北京,安徽,湖北,湖北]),
                   })
print(df.fillna(value=56))

>>>
   景点  省份     门票
0   故宫  北京   80.0
1   泰山  山东   56.0
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0
5  黄鹤楼  湖北   56.0

      3.groupby分组:

import pandas as pd
import numpy as np

df = pd.DataFrame({景点:np.array([故宫, 泰山,圆明园,黄山,赤壁,黄鹤楼]),
                   门票:np.array([80,np.NAN,20,130,75,np.NAN]),
                   省份:np.array([北京,山东,北京,安徽,湖北,湖北]),
                   })
#数据分组统计  df[‘A‘].groupby(df[‘B‘]).mean() A按照B进行分组
print(df[门票].groupby(df[省份]).max())

>>>
省份
北京     80.0
安徽    130.0
山东      NaN
湖北     75.0
Name: 门票, dtype: float64

6.字符串方法

import pandas as pd
import numpy as np

s = pd.Series([A, B, C, Aaba, Baca, np.nan, CABA, dog, cat])
#将大写变成小写
print(s.str.lower())

>>>
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

 

pandas

原文:https://www.cnblogs.com/plhc/p/9457857.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!