回顾下前面学习的统计决策,也就是贝叶斯决策,它可以简单被划分为两步,首先根据样本进行PDF估计,然后根据估计出的PDF来求分类面,因此又经常被叫做两步贝叶斯决策。如果我们能够很好地估计出PDF模型,也总可以利用贝叶斯来实现两类甚至多类的最优分类,但是很多实际情形中,想要精准的估计出PDF模型,并非易事,尤其当样本存在高维特征空间,以及样本数量并不足够多的情况,本质上来说,模式识别的真正目的并非估计PDF模型,而是在特征空间中想方设法找到各类的分界线或分界面。因此,如果可以直接根据样本就能求出分类面,是不是就可以省略估计PDF模型这一步而回归本质呢,答案是肯定的,这篇博客就来学习学习有关基于样本直接设计分类器的有关知识。
基于样本直接设计分类器需要确定以下三个基本要素:
a.判别函数的类型,即从什么样的判别函数(集)中求分类面;
b.分类器设计的目标或准则,在确定了准则后,分类器设计就是根据样本从确定好的判别函数(集)中选择出在该准则下的最优函数,一般来说就是确定函数中的某些特定参数;
c.前两个要素都确定好了,剩下的工作就是设计可以搜索到最优函参的算法;
总的来说,就是判别函数、判别准则以及优化算法,为表达简洁,上述三要素可以用数学形式来描述:在判别函数(集)中确定待定参数,使得准则函数最大化或者最小化。
不同的判别函数,不同的判别准则,以及不同的优化算法都决定了不同分类器的设计方法,其中判别函数最为关键,因为判别函数就是我们要根据样本所寻找的各类之间的分类面,找到了最优分类面,分类基本上就很好解决了;当判别函数为线性函数时,这样设计出的分类器就叫做线性分类器或线性判别方法,线性分类器是最简单的一种分类器,在一般情况下,线性分类器只能是次优分类器,但是由于其设计简单,而且在一些情况(例如样本分布服从正态分布且各类协方差矩阵相等)下,判别函数可以是最小错误率或最小风险意义下的最优分类器 ,因此应用比较广泛,尤其是在有限样本的情况下甚至可以做到比非线性分类器效果更好。
首先给出判别函数的一般表达式,两类情况为:
(1)
则多类情况为: (2),c代表共有c类。
为了简单起见,仍然采用两类情况来进行推导。公式(1)中,x是d维的样本特征向量,又叫做样本向量,w是权重向量,分别表示如下:
而w0是个常值,叫做阈值权。对于两类问题,可以采用如下决策规则:令,如果g(x)>0,则判到1类,如果g(x)<0,则判到2类,如果g(x)=0,则判到任意类或者reject。因此g(x)=0方程定义了一个决策面(或分类面),可以将两类的点分开,当g(x)是线性时,该决策面就是一个超平面(hyper plane)。下面,来进行判别函数的几何推导:
假设有两个样本x1和x2,它们同落在决策面H上,那么有:
明显,w是分类面H的法向量,它决定了决策面H的方向;因此对于一个被分成两个半平面R1和R2的H来说,当x落在R1中时,法向量w是指向R1的,即R1中的所有样本x都在分类面H的正侧,于是R2中的所有样本x都在H的负侧,如图:
此时,线性判别函数g(x)可以看成是样本特征空间中某一点x到分类面H的距离的一种代数度量;设上图中落入R1中的样本x特征点到H的距离向量为r,则根据向量性质可得到:
于是,将上式代入我们的一般式(1)中,得到:
因此,,当样本x=0(原点),可计算出原点到分类面的距离:
或
容易知道,w0的值其实就决定了分类面H的位置,如果w0>0,则原点在分类面的正侧;w0<0,则原点在H的负侧;w0=0,表明判别函数齐次,H过原点。
由上面的推导可以看出,判别函数g(x)其实就是某一样本点x到分类面H的代数距离,当x在H正侧,g(x)>0;当x在H负侧,g(x)<0;当x在H上,g(x)=0。
模式识别(Pattern Recognition)学习笔记(七)——线性分类器及线性判别函数
原文:http://blog.csdn.net/eternity1118_/article/details/51248471