首页 > 其他 > 详细

Jordan Lecture Note-1: Introduction

时间:2014-02-09 23:37:10      阅读:323      评论:0      收藏:0      [点我收藏+]

     Jordan Lecture Note-1: Introduction

     第一部分要整理的是Jordan的讲义,这份讲义是我刚进实验室时我们老师给我的第一个任务,要求我把讲义上的知识扩充出去,然后每周都要讲给他听。如果有需要这份讲义的话,请留言,我会用邮件发给你。

    首先,我来说说机器学习这个东西。刚进实验室,我根本连什么是机器学习都不知道,听到这个名词后的第一反应是机器人,心想估计是搞硬件的。后来才发现其实机器学习更偏向于后面两个字,也就是“学习”。打个不恰当的比方吧,人类在婴儿时期,还无法对世上的东西进行识别,比如小汽车跟货车有什么区别?这时,婴儿的父母就会指着小汽车对他说,这是个小汽车,它有四个小轮子,四个门等等;指着货车对他说,这是货车,它有六个大轮子,两个门等等。当婴儿接受到这些信息后,就会在脑中对汽车和货车的一些属性特征进行抽象,从而能够得出一个能够识别汽车和货车的模型。其实机器学习也类似吧,把人类抽象出的一些特征信息作为机器学习的“资料”,术语称之为训练集,有了这些“资料”后,我们在给定一个学习算法,这个学习算法针对这个“资料”就能学习出一个模型,而这个模型就是机器最后用来决策的根据。

     然后,我在说说机器学习中最简单的二分类问题。 所谓二分类问题就是让机器来识别出 A 和 B。假设训练集 {xbubuko.com,布布扣ibubuko.com,布布扣,ybubuko.com,布布扣ibubuko.com,布布扣}bubuko.com,布布扣Nbubuko.com,布布扣i=1bubuko.com,布布扣bubuko.com,布布扣 ,其中 xbubuko.com,布布扣ibubuko.com,布布扣Rbubuko.com,布布扣dbubuko.com,布布扣bubuko.com,布布扣 成为输入特征,d为特征的维度,y{0,1}bubuko.com,布布扣 称为 label。每一个输入数据xbubuko.com,布布扣ibubuko.com,布布扣bubuko.com,布布扣 都对应着一个输出的label ybubuko.com,布布扣ibubuko.com,布布扣bubuko.com,布布扣 ,而我们的目标是通过给定的这个训练集,学习出一个模型,这个模型能够尽可能正确的判断出这个输入的数据是属于哪一个label。这类问题有很多实际应用,比如人脸识别,垃圾邮件过滤等等。很显然,更一般的多分类问题指的是label的数量大于2.

    接下来,我简单的介绍四种二分类的方法,分类是1)感知器(Perceptron)2)逻辑斯回归(Logistic Regression)3)线性判别分析(Linear Discriminant Analysis)4)支撑向量机(Support Vector Machine)。


 一 Perceptron

    1)感知器算法

 step 1:

       初始化 w=wbubuko.com,布布扣0bubuko.com,布布扣bubuko.com,布布扣

 step 2:

     for $i=1,2, ... ,n$

           计算wbubuko.com,布布扣jbubuko.com,布布扣xbubuko.com,布布扣ibubuko.com,布布扣bubuko.com,布布扣 ,若wbubuko.com,布布扣jbubuko.com,布布扣xbubuko.com,布布扣ibubuko.com,布布扣>0bubuko.com,布布扣 ,则sety=1bubuko.com,布布扣 ,否则y=0bubuko.com,布布扣

       更新权重w=w+λ(ybubuko.com,布布扣ibubuko.com,布布扣?y)xbubuko.com,布布扣ibubuko.com,布布扣bubuko.com,布布扣

     end for

step 3:

     若step 2中的权重都没有被更新的话说明算法已经收敛,返回权重wbubuko.com,布布扣 ;否则转step 2.

step 4: 

     最终的判断函数为f(x)=wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣 ,若f(x)>0bubuko.com,布布扣 ,则ybubuko.com,布布扣 为1;否则ybubuko.com,布布扣 为0.

 2) 感知器算法的收敛定理

   如果数据是线性可分的话(也就是存在的一个线性函数f(x)bubuko.com,布布扣 能使所有的xbubuko.com,布布扣 所对应的label都能通过上述决策准则得到),那么算法就一定收敛,既存在有限次数能找到权重wbubuko.com,布布扣 .

 证明:由于数据是线性可分的,那么一定存在一个权向量wbubuko.com,布布扣?bubuko.com,布布扣bubuko.com,布布扣 能够正确的决策出所有的数据label,既对于label 1有wbubuko.com,布布扣Tbubuko.com,布布扣x>0bubuko.com,布布扣 ,对于label 2 有wbubuko.com,布布扣Tbubuko.com,布布扣x<0bubuko.com,布布扣 wbubuko.com,布布扣?bubuko.com,布布扣bubuko.com,布布扣 进行归一化使wbubuko.com,布布扣?bubuko.com,布布扣=1bubuko.com,布布扣 ,将属于label 2 的数据xbubuko.com,布布扣ibubuko.com,布布扣bubuko.com,布布扣 做乘-1处理,得到新的数据xbubuko.com,布布扣kbubuko.com,布布扣bubuko.com,布布扣 。于是必存在一个正数dbubuko.com,布布扣 ,使对所有的样本有wbubuko.com,布布扣?bubuko.com,布布扣xbubuko.com,布布扣kbubuko.com,布布扣dbubuko.com,布布扣 。任意权向量与最优权向量wbubuko.com,布布扣?bubuko.com,布布扣bubuko.com,布布扣 的余弦角cosα=wbubuko.com,布布扣?bubuko.com,布布扣?wbubuko.com,布布扣wbubuko.com,布布扣?bubuko.com,布布扣wbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣

    设感知器在训练过程中的判错模式依次为xbubuko.com,布布扣ibubuko.com,布布扣1bubuko.com,布布扣bubuko.com,布布扣,xbubuko.com,布布扣ibubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣,...,xbubuko.com,布布扣ibubuko.com,布布扣tbubuko.com,布布扣bubuko.com,布布扣,...bubuko.com,布布扣 ,则每一个判错模式都对应的对权重的更新:

\[

w_{k+1} = w_k + \lambda x_{i_k}

\]

其中λbubuko.com,布布扣 为学习系数。由wbubuko.com,布布扣?bubuko.com,布布扣?wbubuko.com,布布扣k+1bubuko.com,布布扣=wbubuko.com,布布扣?bubuko.com,布布扣[wbubuko.com,布布扣kbubuko.com,布布扣+λxbubuko.com,布布扣ibubuko.com,布布扣kbubuko.com,布布扣bubuko.com,布布扣]=wbubuko.com,布布扣?bubuko.com,布布扣?wbubuko.com,布布扣kbubuko.com,布布扣+λwbubuko.com,布布扣?bubuko.com,布布扣?xbubuko.com,布布扣ibubuko.com,布布扣kbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣wbubuko.com,布布扣?bubuko.com,布布扣?wbubuko.com,布布扣kbubuko.com,布布扣+λdbubuko.com,布布扣bubuko.com,布布扣 ,迭代计算下去得:

 \[

w^*\cdot w_{k+1} \geq w^*\cdot w_0 + k\lambda d

\]

 选择wbubuko.com,布布扣0bubuko.com,布布扣{xbubuko.com,布布扣kbubuko.com,布布扣}bubuko.com,布布扣 ,必满足 wbubuko.com,布布扣?bubuko.com,布布扣?wbubuko.com,布布扣0bubuko.com,布布扣>0bubuko.com,布布扣 ,所以 wbubuko.com,布布扣?bubuko.com,布布扣?wbubuko.com,布布扣kbubuko.com,布布扣kλdbubuko.com,布布扣

     在wbubuko.com,布布扣kbubuko.com,布布扣bubuko.com,布布扣 为收敛到 wbubuko.com,布布扣?bubuko.com,布布扣bubuko.com,布布扣 时,对于判错模式必有 wbubuko.com,布布扣kbubuko.com,布布扣?xbubuko.com,布布扣ibubuko.com,布布扣kbubuko.com,布布扣bubuko.com,布布扣<0bubuko.com,布布扣 ,所以

\begin{align*}

 \|w_{k+1}\|^2 &= [w_k+\lambda x_{i_k}]\cdot[w_k+\lambda x_{i_k}] \\

                        &= \|w_k\|^2 + 2\lambda w_k\cdot x_{i_k} + \lambda^2\|x_{i_k}\|^2 \\

                        &\leq \|w_k\|^2 + \lambda^2

\end{align*}

 迭代计算可得:wbubuko.com,布布扣kbubuko.com,布布扣bubuko.com,布布扣2bubuko.com,布布扣wbubuko.com,布布扣0bubuko.com,布布扣bubuko.com,布布扣2bubuko.com,布布扣+kλbubuko.com,布布扣2bubuko.com,布布扣=C+kλbubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣 ,其中Cbubuko.com,布布扣 为常数。

 当wbubuko.com,布布扣kbubuko.com,布布扣=wbubuko.com,布布扣?bubuko.com,布布扣bubuko.com,布布扣 时,cosα=1bubuko.com,布布扣 ,故

\[

 1=\frac{w^*\cdot w_k}{\|w^*\|\|w_k\|}\geq\frac{k\lambda d}{\sqrt{C+k\lambda^2}}

\]

 ?bubuko.com,布布扣

\[

 k\leq\frac{\lambda^2+\sqrt{\lambda^2+4\lambda^2 d^2}}{2\lambda^2 d^2}.

\]

Jordan Lecture Note-1: Introduction

原文:http://www.cnblogs.com/boostable/p/lec_introduction.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!