首页 > 其他 > 详细

第3章 探索性数据分析(单因子&对比)与可视化

时间:2019-08-27 20:54:36      阅读:116      评论:0      收藏:0      [点我收藏+]

1、理论铺垫

 DataframeSeries均适用

  ~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode()

  ~离中趋势:标准差std()、方差var()

   数据分布:偏态skew()与峰态kurt()、正态分布与三大分布
技术分享图片正偏态(mean>median)

  import scipy.stats as ss

     正态分布:ss.norm 、卡方分布:ss.chi2 、t分布:ss.chi2、f分布:ss.chi2
  偏态系数:数据平均值偏离状态的衡量
  
峰态系数:数据分布集中强度的衡量

 

       ~ 抽样定理:抽样误差、抽样精度

 

   data.sample(10)  #10

 

        data.sample(frac = 0.001)  #抽样百分比为0.001

 


2、数据分类


·         定类(类别):根据事物离散、无差别属性进行的分类,如:名族


·         定序(顺序):可以界定数据的大小,但不能测定差值:如:收入的低、中、高


·         定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,如:温度


·         定比(比率):可以界定数据大小,可测定差值,有绝对零点,如:身高、体重

 

 

 

 

第3章 探索性数据分析(单因子&对比)与可视化

原文:https://www.cnblogs.com/Cheryol/p/11420763.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!