首页 > 其他 > 详细

机器为什么可以学习(1)---测试和训练过程

时间:2017-01-24 18:47:07      阅读:322      评论:0      收藏:0      [点我收藏+]

1、课程内容

  数据来源于同一分布,且hypothesis 集合有限的情况下,学习是可能的,由PAC准则保证,那么在感知机模型中假设空间是无限的,那么无限hypothesis情况下学习为什么依然还成立?

2、复习,统计学习流程

  技术分享技术分享

  上述的流程中分为两部分,一部分是选择一个Ein最小的g作为f,另一个过程就是测试这个g以测试数据集上的表现:

  技术分享

  学习的两个核心问题:

  技术分享

  对于这两个核心问题,hypothesis 集合的大小对这两问题的有什么关键的作用?

  技术分享

  对于小的M来说,第一个问题的答案很好,有多hypothesis的霍夫曼不等式可以M越小,那么发生坏事情(Ein和Eout不接近)的概率就越小,但是对于第二个问题来说,M越小选择就越少,可能不会使得Ein很小;

  技术分享

  对于大的M来说,同样有霍曼夫不等式可知,发生坏事情的概率变大,但是对于第二问题来说,选择足够多。也就是说选择M的大小是对上面的核心问题是有很大影响的,那么当M无限大的时候会是什么情况?能不能使用一个有限的mH替代霍夫曼中的M,使得M在无穷时霍夫丁不等式依然成立。

  技术分享

 

2、M从哪里来?

  多hypothesis下的霍夫丁不等式:其中M是hypothesis的个数;

  技术分享

  M通过union bound得到,某样本在所有的hypothesis上发生不好的概率上限P[B1 or B2 or .......BM]是:

  技术分享

  通过以上分析可知,M来自于union bound操作,现分析一下union bound是否合理?

  对于假设空间中的假设函数有很多是类似的,那么就是说Ein(h1) ≈ Ein(h2),在训练数据集上发生不好的概率应该也是有关系的h1不好的话,h2不好的概率也很大,也就是说union bound的上限扩的太大了;

  技术分享   技术分享

  over-estimating就造成了union bound失败,怎么解决这个over-estimating的问题?找到重叠的部分,对相似的hypothesis进行按组分类:

  技术分享

3、hypothesis的分类

  待分类的hypothesis集合:

  技术分享

  对于该集合的hypothesis有无穷多个,那么针对该假设空间可以怎么分类?假如数据集只有一个数据输入x1

  技术分享

  此时从数据x1的角度来说,整个hypothesis空间只用两种不同的分类:

  技术分享

  假设数据只有两个的情况下:

  技术分享

  当只有两个数据的时候那么总共会有4中分类:

  技术分享

  同理,当有3个数据时,总共有8种分类,因此可以发现这样的规律,对于0/1分类来说,每个点要不是O要不是X因此在有N个数据时hypothesis集合的函数分类最多为2N次方个;

  总之,当输入数据有N个时,假设空间中的无限个函数可以分成种类为effective(N),则有:

  (1)、effective(N) <= 2N

  (2)、无限种类的hypothesis可以分成有限的种类

  (3)、因此多hypothesis的霍夫丁不等式可以进一步的精确为:

  技术分享

  如果effective(N)可以替代N,并且effective(N)要远小于2N,那么在无限个hypothesis空间下的学习就是可能的,下节课进行讨论这一问题。

 

 

 

  

 

 

 

 

 

 

 

  

  

 

机器为什么可以学习(1)---测试和训练过程

原文:http://www.cnblogs.com/daguankele/p/6345103.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!