0%

超平面、函数间隔和几何间隔

关于超平面、函数间隔以及几何间隔的理解。
这些在SVM中要用到。

超平面

定义

  1. 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两块;三维空间中,一个平面是二维的,它把空间分成了两块。
  2. 法向量是指垂直于超平面的向量

法向量和超平面公式

假设在空间内,那么法向量和平面总是垂直的。如下图:

三维空间中法向量和平面横截面


不难看出,和法向量垂直,于是:


化简后得:

由于其为常数项,所以令:

于是超平面公式可以写成:

同样可以推导到空间

点到超平面距离

点到超平面距离

x是平面外一点,距离平面是d,即红色线。
通过三角函数得到:

又因为d和法向量平行,所以可以通过向量相乘等于模乘模乘cos得到:

联立得到:

因为在超平面内,,于是最后得到的任意点到超平面的距离公式:

其实高中学过一点到直线的距离公式:

这个和上面通用的公式可以对应

函数间隔

在超平面确定的情况下,点到平面距离公式中,分母不变,所以分子可以近似表示点到超平面的距离。

如果,则被认为是正类,否则为负类
如果都正确分类,那么,如果分类错误,那么小于0.
同时,的绝对值越大,则确信度越大

因此用这个来表示函数间隔。对于一个训练样本(x(i),y(i))我们定义它到超平面(w,b)的函数间隔为:
γ

函数间隔越大越好,并且如果γ,则样本正确分类
对于整个训练集,定义函数间隔为所有样本中最小的那个函数间隔:
γγ

几何间隔

对于函数间隔,有个问题就是,可以在不改变超平面的情况下,让函数间隔任意大。
如果倍增,函数间隔改变,但是超平面不变。

因此我们对函数间隔加上一个限制:

这样是为了,让倍增的时候,分母也会倍增,所以几何间隔就不会改变。
的时候,几何间隔就是函数间隔

所以几何间隔的公式就是:
γ

训练集的集合间隔是所有样本中最小的那个:
γγ

有没有发现,几何间隔其实就是点到平面的距离

函数间隔和几何间隔的关系:
γγ