异常点、高杠杆点、强影响点
异常点:残差很大的点;
高杠杆点:远离样本空间中心的点;
强影响点:改变拟合回归方程特征的点。
注意:
A点:非异常点、高杠杆点、非强影响点
B点:异常点、非高杠杆点、强影响点
C点:异常点、高杠杆点、强影响点
异常值处理:
对变量做一个描述性统计,进而查看哪些数据是不合理的,最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。如:客户年龄的最大值为199岁,则该变量存在异常。
若数据服从正态分布,在3原则下,异常值被定义:一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3
之外的值出现的概率为
,属于极个别小概率事件。
异常值定义:小于或大于
的值。
:下四分位数
:上四分位数
:四分位数间距,上下四分位数之差,其间包含全部观测值的一半
异常检测的混合模型方法
步骤如下:
1: 初始化:在时刻t=0,令Gt包含所有对象,而Bt为空;
令F(Gt,Bt)为好坏观测点划分的评价函数。
2: for 属于Gt的每个点x do
3: 将x从Gt移动到Bt,产生新的数据集合Gt+1和Bt+1。
4: 计算D的新的评价函数的值。
5: 计算差值:= F(Gt+1,Bt+1)- F(Gt,Bt)
6: if ,其中c是某个阈值 then
7: 将观测x分类为异常。
8: end if
9:end for
G可以理解为好的观测的集合,B理解为怀的观测的集合。
评价函数可以有很多种:如马氏距离、整个数据集的似然和对数似然等等
以马氏距离划分为例:
如果一种划分方式具有以下性质,我们认为这是合理的:
原文:http://www.cnblogs.com/SevnChen/p/5024644.html