首页 > 其他 > 详细

描述统计学

时间:2020-03-13 21:33:56      阅读:90      评论:0      收藏:0      [点我收藏+]

 

  • 数值数据: 用于运算
  • 分类数据:group by, 文本数据。

 

分类数据描述统计

频数统计:

  • 单纯对各个分类计数。count
  • 百分比。

 

数值数据描述统计

  • 统计度量:
    • 平均数
    • 中位数median(比平均数更真实反应情况)。如果平均数<>中位数,代表数值分布有倾斜,更多数值靠近中位数。
    • 众数,  出现频率最高的数值。
    • 分位数
    • 标准差
  • 图形

 

分位数

分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量概率分布范围分为几个具有相同概率的连续区间。

分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。

常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。

分位数指的就是连续分布函数中的一个点,这个点对应概率p。

 

四分位数(英语:Quartile

统计学分位数的一种,即把所有数值由小到大排列,然后按照总数量分成四等份,即每份中的数值的数量相同,处于三个分割点位置的数值就是四分位数。

这3个数叫做:

  • 第一四分位数,又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。
  • 第二四分位数,又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
  • 第三四分位数,又称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。

pandas.DataFrame.quantile()numpy.percentile()计算结果一样。

pandas中有describe方法显示四分位数。

例子:

>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])
>>> ps.describe()
               0
count  12.000000
mean    6.500000
std     3.605551
min     1.000000
25%     3.750000    #分割点
50%     6.500000
75%     9.250000
max    12.000000

 

>>> ps.quantile(0.25)
0    3.75
 
>>> ps.quantile(0.5)
0    6.5

 

>>> np.percentile(ps, 50)
6.5

 

分析方法中的二八法则,结合分位数来使用。

 

标准差,方差

描述数据离散程度。数据的波动性。

  • 方差:统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数
  • 标准差:对方差开跟号。因为方差会消除数据的单位,比如:元,缺少了业务的含义,所以引入标准差。

 

例子:

a=[10,10,10,11,12,12,12]

b=[3,5,7,11,15,17,19]

a和b的中位数和平均数都11,但他们的方差不一样,a的方差<b的方差。a数据集的离散程度小于b数据集。

均值+/-标准差,这个范围的数据占了整个数据集的大部分,可以说数值大部分在这个范围内波动。

阐述:数据集的平均值是m, 大部分在m+/-方差的范围内波动。

例子:

#还是??的数据
>>> ps.std()
0    3.605551

 

权重统计--数据标准化Z-Score

 

描述统计学

原文:https://www.cnblogs.com/chentianwei/p/12488891.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!