1、sum函数
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = [‘a‘,‘b‘,‘c‘,‘d‘],columns = [‘one‘,‘two‘]) df Out[6]: one two a 1.40 NaN b 7.10 -4.5 c NaN NaN d 0.75 -1.3 df.sum() Out[7]: one 9.25 two -5.80 dtype: float64 df.sum(axis=1) #NA值会自动排除,除非整个切片添加skipna禁用该功能 Out[8]: a 1.40 b 2.60 c 0.00 d -0.55 dtype: float64
df.mean(axis=1,skipna = False) #skipna 禁用na Out[10]: a NaN b 1.300 c NaN d -0.275 dtype: float64
df.idxmax() #idxmax和idxmin返回的是间接统计(比如达到最小值和最大值的索引) Out[13]: one b two d dtype: object df.cumsum() #案列累计 Out[14]: one two a 1.40 NaN b 8.50 -4.5 c NaN NaN d 9.25 -5.8
一次性产生多个汇总
df.describe() Out[15]: one two count 3.000000 2.000000 mean 3.083333 -2.900000 std 3.493685 2.262742 min 0.750000 -4.500000 25% 1.075000 -3.700000 50% 1.400000 -2.900000 75% 4.250000 -2.100000 max 7.100000 -1.300000
对于非数值数据,describe会产生另外一种汇总统计:
obj = pd.Series([‘a‘,‘a‘,‘b‘,‘c‘]*4) obj.describe() Out[17]: count 16 unique 3 top a freq 8 dtype: object
2、Series的corr用于计算两个Series中重叠的、非NA的按索引对齐的相关系数,类似COV用于计算协方差
DataFrame的corr和cov将以DataFrame的形式返回完整的相关系数或协方差矩阵
利用DataFrame的corrwith方法,你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回另一个Series(针对各列进行计算)
3、Series
value_count计算频数 obj.unique.sort()排序加唯一值
value_count适用于任何数组和序列
isin 计算一个Series各值是否包含于传入的值序列中的 布尔型数组
4、处理缺失数据
原文:http://www.cnblogs.com/groupe/p/4938191.html