1、pandas对缺失数据的处理
我们的数据缺失通常有两种情况: 1、一种就是空,None等,在pandas是NaN(和np.nan一样)
解决方法:
判断数据是否为NaN:pd.isnull(df),pd.notnull(df)
处理方式1:删除NaN所在的行列dropna (axis=0, how=‘any‘, inplace=False)
处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)
2、另一种是我们让其为0,蓝色框中
解决方法:
step1、处理为0的数据:t[t==0]=np.nan 当然并不是每次为0的数据都需要处理 计算平均值等情况,nan是不参与计算的,但是0会
step2、然后在对nan进行操作
注意:fiillna(t.mean())填充只针对该nan的列的平均值进行填充
2、常用的统计方法
df["name"].unique()#获取不重复的列表数据 df["name"].mean()#取平均值 df["name"].max()#取最大值 df["name"].min()#取最小值 df["name"].argmin()#取最小值位置 df["name"].argman()#取最大值位置 df["name"].median()#取中位数
原文:https://www.cnblogs.com/ywjfx/p/10839255.html