利用Python进行数据分析-07-汇总和计算描述统计

时间：2015-11-05 10:20:56 阅读：400 评论：0 收藏：0 [点我收藏+]

1、sum函数

df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = [‘a‘,‘b‘,‘c‘,‘d‘],columns = [‘one‘,‘two‘])

df
Out[6]: 
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

df.sum()
Out[7]: 
one    9.25
two   -5.80
dtype: float64

df.sum(axis=1)  #NA值会自动排除，除非整个切片添加skipna禁用该功能
Out[8]: 
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

df.mean(axis=1,skipna = False)  #skipna 禁用na
Out[10]: 
a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

df.idxmax()  #idxmax和idxmin返回的是间接统计（比如达到最小值和最大值的索引）
Out[13]: 
one    b
two    d
dtype: object

df.cumsum() #案列累计
Out[14]: 
    one  two
a  1.40  NaN
b  8.50 -4.5
c   NaN  NaN
d  9.25 -5.8

一次性产生多个汇总

df.describe()
Out[15]: 
            one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000

对于非数值数据，describe会产生另外一种汇总统计：

obj = pd.Series([‘a‘,‘a‘,‘b‘,‘c‘]*4) 

obj.describe()
Out[17]: 
count     16
unique     3
top        a
freq       8
dtype: object

2、Series的corr用于计算两个Series中重叠的、非NA的按索引对齐的相关系数，类似COV用于计算协方差

DataFrame的corr和cov将以DataFrame的形式返回完整的相关系数或协方差矩阵

利用DataFrame的corrwith方法，你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回另一个Series（针对各列进行计算）

3、Series

value_count计算频数 obj.unique.sort()排序加唯一值

value_count适用于任何数组和序列

isin 计算一个Series各值是否包含于传入的值序列中的布尔型数组

4、处理缺失数据

利用Python进行数据分析-07-汇总和计算描述统计

原文：http://www.cnblogs.com/groupe/p/4938191.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)