描述统计学

时间：2020-03-13 21:33:56 阅读：93 评论：0 收藏：0 [点我收藏+]

数值数据：用于运算
分类数据：group by, 文本数据。

分类数据描述统计

频数统计：

单纯对各个分类计数。count
百分比。

数值数据描述统计

统计度量：
- 平均数
- 中位数median（比平均数更真实反应情况）。如果平均数<>中位数，代表数值分布有倾斜，更多数值靠近中位数。
- 众数, 出现频率最高的数值。
- 分位数
- 标准差
图形

分位数

分位数（英语：Quantile），亦称分位点，是指用分割点（cut point）将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。

分割点的数量比划分出的区间少1，例如3个分割点能分出4个区间。

常用的有中位数（即二分位数）、四分位数（quartile）、十分位数（decile ）、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。

分位数指的就是连续分布函数中的一个点，这个点对应概率p。

四分位数（英语：Quartile）

是统计学中分位数的一种，即把所有数值由小到大排列，然后按照总数量分成四等份，即每份中的数值的数量相同，处于三个分割点位置的数值就是四分位数。

这3个数叫做：

第一四分位数 $，又称较小四分位数，等于该样本中所有数值由小到大排列后第25%的数字。$
第二四分位数 $，又称中位数，等于该样本中所有数值由小到大排列后第50%的数字。$
第三四分位数 $，又称较大四分位数，等于该样本中所有数值由小到大排列后第75%的数字。$

$pandas.DataFrame .quantile() 和$ $numpy.percentile() 计算结果一样。$

$pandas中有describe方法显示四分位数。$

$例子：$

>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])
>>> ps.describe()
               0
count  12.000000
mean    6.500000
std     3.605551
min     1.000000
25%     3.750000    #分割点
50%     6.500000
75%     9.250000
max    12.000000

>>> ps.quantile(0.25)
0    3.75
 
>>> ps.quantile(0.5)
0    6.5

>>> np.percentile(ps, 50)
6.5

$分析方法中的二八法则，结合分位数来使用。$

$标准差，方差$

$描述数据离散程度。数据的波动性。$

$方差：统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。$
$标准差：对方差开跟号。因为方差会消除数据的单位，比如：元，缺少了业务的含义，所以引入标准差。$

例子：

$a=[10，10，10，11，12，12，12]$

$b=[3，5，7，11，15，17，19]$

$a和b的中位数和平均数都11，但他们的方差不一样，a的方差<b的方差。a数据集的离散程度小于b数据集。$

均值+/-标准差，这个范围的数据占了整个数据集的大部分，可以说数值大部分在这个范围内波动。

阐述：数据集的平均值是m, 大部分在m+/-方差的范围内波动。

$例子：$

#还是??的数据
>>> ps.std()
0    3.605551

权重统计--数据标准化Z-Score

描述统计学

原文：https://www.cnblogs.com/chentianwei/p/12488891.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)