关于超平面、函数间隔以及几何间隔的理解。
这些在SVM中要用到。
超平面
定义
- 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两块;三维空间中,一个平面是二维的,它把空间分成了两块。
- 法向量是指垂直于超平面的向量
法向量和超平面公式
假设在
不难看出,
化简后得:
由于其为常数项,所以令:
于是超平面公式可以写成:
同样可以推导到
点到超平面距离
x是平面外一点,距离平面是d,即红色线。
通过三角函数得到:
又因为d和法向量平行,所以可以通过向量相乘等于模乘模乘cos得到:
联立得到:
因为
其实高中学过一点
这个和上面通用的公式可以对应
函数间隔
在超平面确定的情况下,点到平面距离公式中,分母不变,所以分子
如果
如果都正确分类,那么
同时,
因此用这个来表示函数间隔。对于一个训练样本(x(i),y(i))我们定义它到超平面(w,b)的函数间隔为:
函数间隔越大越好,并且如果
对于整个训练集,定义函数间隔为所有样本中最小的那个函数间隔:
几何间隔
对于函数间隔,有个问题就是,可以在不改变超平面的情况下,让函数间隔任意大。
如果
因此我们对函数间隔加上一个限制:
这样是为了,让
当
所以几何间隔的公式就是:
训练集的集合间隔是所有样本中最小的那个:
有没有发现,几何间隔其实就是点到平面的距离
函数间隔和几何间隔的关系: