- SVM是一种监督学习方法,可以用来分类,回归,及异常检测。
- 分类器通过寻找合适的linear decision boundary(或hyperplane)来分类所有数据。
- 最佳hyperplane拥有两类间的最大margin,同时数据被线性分割。
- SVM适用于
a. 只有两类的数据
b. 高维,非线性分割的数据
c. 需要简单的分类器,解释起来很简单,且结果准确
- 一个问题,当数据是非线性可分时,怎么办?
- 用kernel,将非线性可分数据转换成线性可分数据;
具体说,将低维数据转成高维的线性可分数据 - 这也是设计非线性分类器的技巧
- SVM优点
- SVM训练相对简单,无本地优化(neural network需要)
- non-linear SVM能够检测到数据之间更复杂的关系,且不需要很难得转换;但与此同时,训练时间更长;
- SVM有正则化参数,能避免overfit
- 高维空间有效
- 当维度数大于样本数时, 仍然有效;
- 使用了训练集的子集,在内存上有效率
- SVM缺点
- 就分类而言,SVM只能分两类,因此就多类问题而言,还要额外将多类划分成若干个两类;
- 与逻辑回归分类器不同,SVM不能直接给出概率估算;往往分类问题也需要此处的概率;
- 参数很难解释
- 训练时间很长
- 如何找到一个好的kernel很难