频数统计:
分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。
分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。
常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。
分位数指的就是连续分布函数中的一个点,这个点对应概率p。
是统计学中分位数的一种,即把所有数值由小到大排列,然后按照总数量分成四等份,即每份中的数值的数量相同,处于三个分割点位置的数值就是四分位数。
这3个数叫做:
pandas.DataFrame.quantile()和numpy.percentile()计算结果一样。
pandas中有describe方法显示四分位数。
例子:
>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12]) >>> ps.describe() 0 count 12.000000 mean 6.500000 std 3.605551 min 1.000000 25% 3.750000 #分割点 50% 6.500000 75% 9.250000 max 12.000000
>>> ps.quantile(0.25) 0 3.75 >>> ps.quantile(0.5) 0 6.5
>>> np.percentile(ps, 50) 6.5
分析方法中的二八法则,结合分位数来使用。
描述数据离散程度。数据的波动性。
例子:
a=[10,10,10,11,12,12,12]
b=[3,5,7,11,15,17,19]
a和b的中位数和平均数都11,但他们的方差不一样,a的方差<b的方差。a数据集的离散程度小于b数据集。
均值+/-标准差,这个范围的数据占了整个数据集的大部分,可以说数值大部分在这个范围内波动。
阐述:数据集的平均值是m, 大部分在m+/-方差的范围内波动。
例子:
#还是??的数据 >>> ps.std() 0 3.605551
原文:https://www.cnblogs.com/chentianwei/p/12488891.html