存在未知目标函数 f:x->y
和样本集 D={(x~1~,y~1~),(x~2~,y~2~),?,(x~n~,y~n~)}
能否通过学习算法和样本集在假设空间H中找到一个假设h足够靠近目标函数f
有一个箱子其中装了有限个数个石头(红色,绿色两种),每次从中取出一个石头并记录颜色然后放回,如此重复N次得到一个样本
从箱子中红色石头的占比是\(\mu\),样本中红色石头占比是\(\nu\)
那么\(\mu\)和\(\nu\)有什么联系?
P[|\(\nu-\mu\)|>\(\epsilon\)]\(\le2e^{-2\epsilon^2N}\)
P[坏事情]\(\le\)容忍度
霍夫丁不等式描述了\(\mu\)和\(\nu\)的关系
实际应用中\(\mu\)往往是未知且不变的,知道的只有从样本得来的\(\nu\),当N越大,\(\mu\)和\(\nu\)偏差超出容忍范围的概率就越小,\(\nu\)接近于\(\mu\)(\(\mu\)影响\(\nu\),而并非\(\nu\)影响\(\mu\))
应用过程中这与话往往反着说,即\(\mu\)接近于\(\nu\)
在箱子实验1的基础上将每个石头外涂成灰色(这样就不清楚每个石头的实际颜色),使用一个假设式h(一种不依靠外部颜色鉴别石头颜色的方法)来对箱子内和样本的每个石头进行颜色辨认,并且涂上认为正确的颜色
完成后将外部颜色擦去,检查内外颜色是否一致
E~in~(h)=\(\frac{1}{N}\sum^N_{n=1}[[h(x_n)\neq f(x_n)]]\)
E~out~(h)=\(P[h(x)\neq f(x)]\)
P[|\(E_{in}(h)-E_{out}(h)\)|>\(\epsilon\)]\(\le2e^{-2\epsilon^2N}\)
当使用多个假设式h~1~,h~2~,...,h~M~依次做箱子实验2(每个假设式做过之后将所有石头重新涂为灰色)
将最精准判断石头颜色(E~in~最接近E~out~)的假设式重命名为g
霍夫丁不等式最对于一个假设式h成立,但现在目标多个假设式中的最好的一个假设式g的概率,所以霍夫丁不等式提供的保证变得淡化
将上式应用的当前情形(g\(\in\)H={h})
P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le\)P[ |\(E_{in}(h_1)-E_{out}(h_1)\)|>\(\epsilon\)
? or |\(E_{in}(h_2)-E_{out}(h_2)\)|>\(\epsilon\)
? ...
? or |\(E_{in}(h_M)-E_{out}(h_M)\)|>\(\epsilon\)]
? \(\le\sum^M_{m=1}\)P[|\(E_{in}(h_m)-E_{out}(h_m)\)|>\(\epsilon\)]
即
P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le2Me^{-2\epsilon^2N}\)
当假设式数量增加,概率变大,E~in~和E~out~联系减少,学习可行性降低
P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le2Me^{-2\epsilon^2N}\)
当我们给定一个容忍度\(\delta\)(坏事情发生的概率),那么至少有(1-\(\delta\))的概率(好事情发生的概率)使得
E~out~(g)\(\le\)E~in~(g)+\(\sqrt{\frac{1}{2N}ln\frac{2M}{\delta}}\)
E~out~(g)\(\ge\)E~in~(g)-\(\sqrt{\frac{1}{2N}ln\frac{2M}{\delta}}\)
这就是泛化边界
在机器学习应用中假设集H往往是无穷大的,即有无穷个假设式h,即联合边界产生的M是无穷大,导致泛化边界下上限太大而无用
成长函数正是要解决这个问题,来替代M
实际机器学习应用中,假设式之间的相似度较大,概率的重叠比较严重,导致联合边界极为松散
P[B~1~ or B~2~ or ... or B~M~]\(\le\)P[B~1~]+P[B~2~]+...+P[B~M~]
m~H~(N)\(\le\)B(N,k)\(\le\sum_{i=0}^{d_{vc}(H)}(^N_i)\)\(\le2^N\)
使用成长函数替代
P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le2m_H(N)e^{-2\epsilon^2N}\)
P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le4m_H(2N)e^{-\frac{1}{8}\epsilon^2N}\)
只要存在断点,当N变大,样本内外的联系就越紧密
以上来自
及其视频 理论确是有助于理解实践中的做法,水平有限,复杂证明就不写了(我也不是很理解)
原文:https://www.cnblogs.com/redo19990701/p/11321315.html