原文链接如下:
https://blog.csdn.net/ttxs2016/article/details/105882228
一开始讲解了最小间距超平面:所有样本到平面的距离最小
。而距离度量有了函数间隔和几何间隔,函数间隔与法向量www和bbb有关,www变为2w2w2w则函数间距变大了,于是提出了几何距离,就是对www处理,除以∣∣w∣∣||w||∣∣w∣∣,除以向量长度,从而让几何距离不受影响。
但是支持向量机提出了最大间隔分离超平面,这似乎与上面的分析相反,其实这个最大间隔是个什么概念呢?通过公式来分析一下,正常我们假设超平面公式是:
wTx+b=0//超平面w^{T}x+b=0 // 超平面wTx+b=0//超平面
maxw,bγs.t.yi(w∣∣w∣∣xi+b∣∣w∣∣)>γ\max \limits_{w,b} \quad \gamma \\s.t. \quad y_i(\frac{w}{||w||}x_i+\frac{b}{||w||}) > \gammamaxγs.t.yi?(∣∣w∣∣w?xi?+∣∣w∣∣b?)>γ
也就是说对于所有的样本到超平面距离 都大于γ\gammaγ,那这个γ\gammaγ如何求解,文中约定了概念支持向量:正负样本最近的两个点,这两个点之间的距离就是γ\gammaγ,那么问题来了,这中间的超平面有无数个,如何确定这个超平面呢?于是我们可以约束这个超平面到两个最近的点的距离是一样的。
上图中两个红色菱形点与一个蓝色实心圆点就是支持向量,通过这个求解目标,以及约束条件来求解这个超平面。书中有完整的公式装换以及证明这个超平面的唯一性。
这里要讲解一个样本点到直线的距离,
正常我们可能难以理解公式里yyy去哪里了,拿二维空间做例子,正常我们说一个线性方程都是y=ax+by=ax+by=ax+b,其中a和b都是常量,这个线性方程中有两个变量xxx和yyy,转换公式就是y−ax−b=0y-ax-b=0y−ax−b=0,从线性矩阵的角度来思考问题就是 yyy是x1x_1x1?,xxx是x2x_2x2?,用一个wTw^TwT来表示这两者的系数,用bbb代替−b-b−b,所以公式就变为了:
wTx+b=0w^{T}x+b=0wTx+b=0
于是任意一个样本点到超平面的距离是:
r=∣wTx+b∣∣∣w∣∣r = \frac{|w^{T}x+b|}{||w||}r=∣∣w∣∣∣wTx