Dataframe和Series均适用
~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode()
~离中趋势:标准差std()、方差var()
数据分布:偏态skew()与峰态kurt()、正态分布与三大分布
正偏态(mean>median)
import scipy.stats as ss
正态分布:ss.norm 、卡方分布:ss.chi2 、t分布:ss.chi2、f分布:ss.chi2
偏态系数:数据平均值偏离状态的衡量
峰态系数:数据分布集中强度的衡量
~ 抽样定理:抽样误差、抽样精度
data.sample(10) #抽10个
data.sample(frac = 0.001) #抽样百分比为0.001
· 定类(类别):根据事物离散、无差别属性进行的分类,如:名族
· 定序(顺序):可以界定数据的大小,但不能测定差值:如:收入的低、中、高
· 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,如:温度
· 定比(比率):可以界定数据大小,可测定差值,有绝对零点,如:身高、体重
原文:https://www.cnblogs.com/Cheryol/p/11420763.html