首页 > 其他 > 详细

切比雪夫不等式——用于异常检测,基本假设:“几乎所有”值都会“接近”平均,如果偏差大就认为异常

时间:2019-06-19 20:53:23      阅读:1011      评论:0      收藏:0      [点我收藏+]

切比雪夫不等式

维基百科,自由的百科全书
 
 
跳到导航跳到搜索

概率论中,切比雪夫不等式英语:Chebyshev‘s Inequality)显示了随机变量的“几乎所有”值都会“接近”平均。在20世纪30年代至40年代刊行的书中,其被称为比奈梅不等式(英语:Bienaymé Inequality)或比奈梅-切比雪夫不等式(英语:Bienaymé-Chebyshev Inequality)。切比雪夫不等式,对任何分布形状的数据都适用。可表示为:对于任意{\displaystyle b>0}技术分享图片,有:

{\displaystyle P(|X-E(X)|\geqslant b)\leq {\frac {Var(X)}{b^{2}}}}技术分享图片

概念[编辑]

这个不等式以数量化这方式来描述,究竟“几乎所有”是多少,“接近”又有多接近:

  • 与平均相差2个标准差以上的值,数目不多于1/4
  • 与平均相差3个标准差以上的值,数目不多于1/9
  • 与平均相差4个标准差以上的值,数目不多于1/16

……

  • 与平均相差k个标准差以上的值,数目不多于1/k2

举例说,若一班有36个学生,而在一次考试中,平均分是80分,标准差是10分,我们便可得出结论:少于50分(与平均相差3个标准差以上)的人,数目不多于4个(=36*1/9)。
公式:{\displaystyle P(\mu -k\sigma <X<\mu +k\sigma )\geq 1-{\frac {1}{k^{2}}}}技术分享图片

推论[编辑]

测度论说法[编辑]

设(X,Σ,μ)为一测度空间f为定义在X上的广义实可测函数。对于任意实数t > 0,

{\displaystyle \mu (\{x\in X\,:\,\,|f(x)|\geq t\})\leq {1 \over t^{2}}\int _{X}f^{2}\,d\mu .}技术分享图片

一般而言,若g是非负广义实值可测函数,在f的定义域非降,则有

{\displaystyle \mu (\{x\in X\,:\,\,f(x)\geq t\})\leq {1 \over g(t)}\int _{X}g\circ f\,d\mu .}技术分享图片

上面的陈述,可透过以|f|取代f,再取如下定义而得:

{\displaystyle g(t)={\begin{cases}t^{2}&{\mbox{if }}t\geq 0\\0&{\mbox{otherwise,}}\end{cases}}}技术分享图片

概率论说法[编辑]

{\displaystyle X}技术分享图片为随机变量,期望值{\displaystyle \mu }技术分享图片标准差{\displaystyle \sigma }技术分享图片。对于任何实数k>0,

{\displaystyle \Pr(\left|X-\mu \right|\geq k\sigma )\leq {\frac {1}{k^{2}}}.}技术分享图片

改进[编辑]

一般而言,切比雪夫不等式给出的上界已无法改进。考虑下面例子:

{\displaystyle \Pr(X=1)=\Pr(X=-1)=1/(2k^{2})}技术分享图片
{\displaystyle \Pr(X=0)=1-1/k^{2}}技术分享图片

这个分布的标准差{\displaystyle \sigma =1/k}技术分享图片{\displaystyle \mu =0}技术分享图片

对于任意分布形态的数据,根据切比雪夫不等式,至少有 {\displaystyle 1-1/k^{2}}技术分享图片 的数据落在k个标准差之内。其中k>1,但不一定是整数。

当只求其中一边的值的时候,有Cantelli不等式

{\displaystyle \Pr(X-\mu \geq k\sigma )\leq {\frac {1}{1+k^{2}}}.}技术分享图片[1]

证明[编辑]

定义{\displaystyle ~A_{t}:=\{x\in X\mid f(x)\geq t\}}技术分享图片,设{\displaystyle 1_{A_{t}}}技术分享图片为集{\displaystyle ~A_{t}}技术分享图片指标函数,有

{\displaystyle 0\leq g(t)1_{A_{t}}\leq g\circ f\,1_{A_{t}}\leq g\circ f,}技术分享图片
{\displaystyle g(t)\mu (A_{t})=\int _{X}g(t)1_{A_{t}}\,d\mu \leq \int _{A_{t}}g\circ f\,d\mu \leq \int _{X}g\circ f\,d\mu .}技术分享图片

又可从马尔可夫不等式直接证明:马氏不等式说明对任意随机变量Y和正数a{\displaystyle \Pr(|Y|>a)\leq \operatorname {E} (|Y|)/a}技术分享图片。取{\displaystyle Y=(X-\mu )^{2}}技术分享图片{\displaystyle a=(k\sigma )^{2}}技术分享图片

亦可从概率论的原理和定义开始证明:

{\displaystyle \Pr(|X-\mu |\geq k\sigma )=\operatorname {E} (I_{|X-\mu |\geq k\sigma })=\operatorname {E} (I_{[(X-\mu )/(k\sigma )]^{2}\geq 1})}技术分享图片
{\displaystyle \leq \operatorname {E} \left(\left({X-\mu \over k\sigma }\right)^{2}\right)={1 \over k^{2}}{\operatorname {E} ((X-\mu )^{2}) \over \sigma ^{2}}={1 \over k^{2}}.}技术分享图片

参见[编辑]

参考来源[编辑]

  • 《基本统计学 观念与应用二版》,林惠玲 陈正仓 著
  • 《应用统计学 第四版》 修订版,林惠玲 陈正仓 著

切比雪夫不等式——用于异常检测,基本假设:“几乎所有”值都会“接近”平均,如果偏差大就认为异常

原文:https://www.cnblogs.com/bonelee/p/11054494.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!