我们都非常熟悉传统的最小二乘回归,但是最小二乘回归容易受到个别极端值的影响,设想一下不带变量的情形下的最小二乘回归,即
容易知道这时的最小二乘估计\(\hat{\beta}=\bar{y}\)
假设我们的数据为\(1,2,3,4,5\)代表着班上某5个同学的零花钱,则我们的估计值是\(3\),但如果这时候第5个同学的数据没收集到,收集到的是另外一个土豪同学的数据,他的零花钱是100,则我们的数据为\(1,2,3,4,100\),此时估计值就成了\(22\),也就是说这时候我们对班上其他同学的零花钱估计为\(22\),但事实上可能这个班除了这个土豪同学有高达100的零花钱外,其他同学零花钱都很少,此时我们这个估计就显得不靠谱了。这种现象在统计学中叫做不稳健(not robust)。设想还是上述例子,但如果我们采用中位数做估计,那么其实两次的估计都是\(3\),这时候是不是好很多了,一定程度上抵御了某些个别的极端值对估计的影响。
正是基于这样的思想,人们提出了最小一乘回归,即
如果考虑不带变量的情形下的最小一乘回归,即
则容易知道这时的最小二乘估计\(\hat{\beta}=\operatorname{med}_i{\{y_i\}}\),即数据的中位数
对变量个数多时,转化为线性规划问题,容易验证原始最小一乘回归优化问题,等价于如下的线性规划
原文:https://www.cnblogs.com/sanmujun/p/12688349.html