统计学中 Bootstrap ,是一种重采样(Resampling)技术。
机器学习中的Bagging,AdaBoost等方法其实都蕴含了Bootstrap的思想。
在统计的世界,我们面临的总是只有样本,Where there is sample, there is uncertainty,正因为不确定性的存在,才使统计能够生生不息。
传说统计学家、数学家和物理学家乘坐一列火车上旅行,路上看到草原上有一只黑羊,统计学家说,“基于这个样本来看,这片草原上所有的羊都是黑的”,数学家说,“只有眼前这只羊是黑的”,物理学家则说,“你们都不对,只有羊的这一面是黑的”。这是关于统计和其他学科的一个玩笑话,说明了统计的一些特征,比如基于样本推断总体。
一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?
Bootstrap的奥义也就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?J
ackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?
既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。
Bootstrap的一般的抽样方式都是“有放回地全抽”(其实样本量也要视情况而定,不一定非要与原样本量相等),意思就是抽取的Bootstrap样本量与原样本相同,只是在抽样方式上采取有放回地抽,
这样的抽样可以进行B次,每次都可以求一个相应的统计量/估计量,最后看看这个统计量的稳定性如何(用方差表示)。
Jackknife的抽样痕迹不明显,但主旨也是取样本的样本,在作估计推断时,每次先排除一个或者多个样本点,然后用剩下的样本点求一个相应的统计量,最后也可以看统计量的稳定性如何。
作者:白马负金羁
来源:CSDN
原文:https://blog.csdn.net/baimafujinji/article/details/50554664
版权声明:本文为博主原创文章,转载请附上博文链接!
原文:https://www.cnblogs.com/sunny1901/p/11283589.html