首页 > 其他 > 详细

Semi-Supervised Dimensionality Reduction

时间:2014-04-16 18:56:14      阅读:788      评论:0      收藏:0      [点我收藏+]

今天阅读了一篇关于半监督降维的论文,做个总结。这篇论文的全名叫《Semi-Supervised Dimensionality Reduction》(2006),是南大周志华老师的大作。

本文提出了一种新的半监督降维算法,并与其他几种半监督降维算法进行了比较。

传 统的机器学习方法通过大量带标注训练样本学习得到模型参数,并根据模型对新样本进行预测。一方面,手工标注样本的标号既费时又费力,而我们当今身处信息爆 炸的时代,这更为人工标注数据增加了难度;另一方面,获取大量未标注数据相对容易得多。如果只依赖于少量标注数据进行学习,那么势必会造成过拟合 (overfitting,即在训练数据集上预测能力很好,但在测试集上预测效果很差的现象),特别是在属性维远远高于样本维的时候。解决过拟合的一个方 法就是增加训练样本,但是限于人力物力无法大量获得标注样本,然而有学者研究发现,无标注数据中蕴含大量有用的信息,利用这些信息可以大幅度改善学习机的 性能。因此,人们自然想到了结合少量标注数据(先验知识)和大量未标注数据来学习提高学习机泛化能力(generalization ablity)的方法,这种方法就是半监督学习(Semi-Supervised Learning,SSL)。

机器学习的三个大方向是:分类、回归、聚类,照此划分方式,我们可以将半监督学习分为:

半监督分类

半监督回归

半监督聚类

目前,半监督回归和半监督聚类这两个方向还比较新,可以出很多的论文

常见的先验知识主要有两种。第一种是标号信息,这类先验信息用在分类方面比较多,如Cai deng的SDA,Zhou deng yong的Label Propagation等;

第 二种是成对约束(pairwise constraint),这类信息主要用于聚类,约束有两种,一个是正约束(must-link),正约束指定两个sample必须属于同一类;另一个是 负约束(cannot-link),与正约束相反。这两种信息都可以结合进半监督降维中。不过约束形式的先验知识更普遍,应用更广。主要原因有2个:1是 成对约束比标号信息更容易获得,人工标注需要相关领域的专家知识,而分辨两个样本是否属于同一类则轻松的多,甚至普通人就能做到;2是从标号信息可以推出 约束信息,反之则不然,因此可以说约束比标号更普遍、通用

下面进入正文,介绍一下这篇论文的基本思想

该算法的目标函数是:

J(w)=bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣1bubuko.com,布布扣2nbubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣i,jbubuko.com,布布扣(wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣ibubuko.com,布布扣?wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣jbubuko.com,布布扣)bubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣+αbubuko.com,布布扣2nbubuko.com,布布扣Cbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣(xbubuko.com,布布扣ibubuko.com,布布扣,xbubuko.com,布布扣jbubuko.com,布布扣)Cbubuko.com,布布扣(wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣ibubuko.com,布布扣?wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣jbubuko.com,布布扣)bubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣?βbubuko.com,布布扣2nbubuko.com,布布扣Mbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣(xbubuko.com,布布扣ibubuko.com,布布扣,xbubuko.com,布布扣jbubuko.com,布布扣)Mbubuko.com,布布扣(wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣ibubuko.com,布布扣?wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣jbubuko.com,布布扣)bubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣

其 中,$w$是投影向量,$n_C$是cannot-link的数量,$n_M$是must-link的数量,$x_i$表示第i个样本,是个列向量。其实 这个目标函数的含义很直观,第一项$\frac{1}{2n^2}\sum_{i,j}({w}^T{x}_i-{w}^T{x}_j)^2$是所有点之 间距离的平均值,比如有n个点,那么就有$\frac{n(n-1)}{2}$个这样的点对。第二项是cannot-link集合的点之间的平均距离。第 三项同理,是must-link集合点之间的平均距离。注意的是,通常cannot-link点对之间的距离比其他项要大得多,因此我们需要调节这三项之 间的比例,使得目标函数不会失衡,这体现在后两项的参数数$\alpha$,$\beta$上,一般$\beta$大于1,$\alpha$要小一点。对 于这个函数,我们希望投影后的空间中,cannot-link的点对距离尽可能地大,must-link的点对距离尽可能地小,因此这个函数越大越好。

定义了目标函数我们就可以开始求解它了,我们可以将目标函数进一步写成如下更简练的形式:

J(w)=1bubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣i,jbubuko.com,布布扣(wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣ibubuko.com,布布扣?wbubuko.com,布布扣Tbubuko.com,布布扣xbubuko.com,布布扣jbubuko.com,布布扣)bubuko.com,布布扣2bubuko.com,布布扣Sbubuko.com,布布扣ijbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣

这样,我们就可以用一个图来对这个函数进行建模了。其中$S_{ij}$是图的相似度,其定义如下:

Sbubuko.com,布布扣ijbubuko.com,布布扣=?bubuko.com,布布扣?bubuko.com,布布扣?bubuko.com,布布扣?bubuko.com,布布扣?bubuko.com,布布扣?bubuko.com,布布扣?bubuko.com,布布扣1bubuko.com,布布扣nbubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣+αbubuko.com,布布扣nbubuko.com,布布扣Cbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣1bubuko.com,布布扣nbubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣?βbubuko.com,布布扣nbubuko.com,布布扣Mbubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣1bubuko.com,布布扣nbubuko.com,布布扣2bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣if(xbubuko.com,布布扣ibubuko.com,布布扣,xbubuko.com,布布扣jbubuko.com,布布扣)Cbubuko.com,布布扣bubuko.com,布布扣if(xbubuko.com,布布扣ibubuko.com,布布扣,xbubuko.com,布布扣jbubuko.com,布布扣)Mbubuko.com,布布扣bubuko.com,布布扣otherwisebubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣

接下来的计算需要用到一些谱图理论的知识,如果不懂可以参考原论文,我们可以将上面的目标函数化简为:

J(w)=wbubuko.com,布布扣Tbubuko.com,布布扣XLXbubuko.com,布布扣Tbubuko.com,布布扣wbubuko.com,布布扣bubuko.com,布布扣

其中$L=D-S$是图的Laplacian矩阵,$D$是对角矩阵,其中$D_{ii} = \sum_j W_{ij}$

我们可以加入约束保证得到一个单位向量$w^Tw=1$

我们的目标是最大化这个函数,最大化这个函数等价于寻找矩阵$XLX^T$的最大特征值。

因 此,只要对矩阵$XLX^T$进行特征值分解,求得的前$d$个最大特征值对应的特征向量$w_i$组成投影矩阵,对原始数据进行投影,之后在降维后的子 空间进行分类或者聚类就可以了。由于结合了约束信息,所以聚类的结果比无监督的结果会好很多。随着约束数量的提高,结果会越来越好。

评价:

SSDR结合了成对约束信息,并在低维空间中保持了这些信息,同时为所有未标注点分配了相同的权重,从而也使得全局结构也在低维流形空间中得到了保留。但缺点是只考虑了低维流形的全局结构而忽略了其局部结构,而实际上这两者缺一不可。因此改进可以从这方面着手。

Semi-Supervised Dimensionality Reduction,布布扣,bubuko.com

Semi-Supervised Dimensionality Reduction

原文:http://www.cnblogs.com/wacc/p/3668851.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!