赞
踩
Support Vector Machine (SVM) 是一个监督学习算法,既可以用于分类(主要)也可以用于回归问题。SVM算法中,我们将数据绘制在n维空间中(n代表数据的特征数),然后查找可以将数据分成两类的超平面。支持向量指的是观察的样本在n为空间中的坐标,SVM是将样本分成两类的最佳超平面。
KNN算法是物以类聚,人以群分,身旁哪个种类最多就把预测的样本归为哪一类,基本原理就是找到距离最近的K个元素,然后将这K个元素进行排列,哪个种类多,就将样本进行归类。
对于SVM,是先在训练集上训练一个模型,然后用这个模型直接对测试集进行分类。这两个步骤是独立的。
对于KNN,没有训练过程。只是将训练数据与训练数据进行距离度量来实现分类。
优点:
1. 对于clear margin 分类问题效果好;
2. 对高维分类问题效果好;
3. 当维度高于样本数的时候,SVM较为有效;
4. 因为最终只使用训练集中的支持向量,所以节约内存缺点
1. 当数据量较大时,训练时间会较长;
2. 当数据集的噪音过多时,表现不好;
3. SVM不直接提供结果的概率估计,它在计算时直接使用5倍交叉验证。
附上代码图
-
- # 判断a,b是否相等计算acc的均值
- def show_accuracy(a, b, tip):
- acc = a.ravel() == b.ravel()
- print('%s Accuracy:%.3f' %(tip, np.mean(acc)))
-
- # 分别打印训练集和测试集的准确率 score(x_train, y_train)表示输出 x_train,y_train在模型上的准确率
- def print_accuracy(clf, x_train, y_train, x_test, y_test):
- print('training prediction:%.3f' %(clf.score(x_train, y_train)))
- print('test data prediction:%.3f' %(clf.score(x_test, y_test)))
- # 原始结果和预测结果进行对比 predict() 表示对x_train样本进行预测,返回样本类别
- show_accuracy(clf.predict(x_train), y_train, 'traing data')
- show_accuracy(clf.predict(x_test), y_test, 'testing data')
- # 计算决策函数的值 表示x到各个分割平面的距离
- print('decision_function:\n', clf.decision_function(x_train))
-
- def draw(clf, x):
- iris_feature = 'sepal length', 'sepal width', 'petal length', 'petal width'
- x1_min, x1_max = x[:, 0].min(), x[:, 0].max()
- x2_min, x2_max = x[:, 1].min(), x[:, 1].max()
- # 生成网格采样点
- x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j]
- # 测试点
- grid_test = np.stack((x1.flat, x2.flat), axis = 1)
- print('grid_test:\n', grid_test)
- # 输出样本到决策面的距离
- z = clf.decision_function(grid_test)
- print('the distance to decision plane:\n', z)
- grid_hat = clf.predict(grid_test)
- # 预测分类值
- print('grid_hat:\n', grid_hat)
- # 使得grid_hat 和 x1 形状一致
- grid_hat = grid_hat.reshape(x1.shape)
- cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
- cm_dark = mpl.colors.ListedColormap(['g', 'b', 'r'])
-
- plt.pcolormesh(x1, x2, grid_hat, cmap = cm_light)
- plt.scatter(x[:, 0], x[:, 1], c=np.squeeze(y), edgecolor='k', s=50, cmap=cm_dark )
- plt.scatter(x_test[:, 0], x_test[:, 1], s=120, facecolor='none', zorder=10 )
- plt.xlabel(iris_feature[0], fontsize=20) # 注意单词的拼写label
- plt.ylabel(iris_feature[1], fontsize=20)
- plt.xlim(x1_min, x1_max)
- plt.ylim(x2_min, x2_max)
- plt.title('Iris data classification via SVM', fontsize=30)
- plt.grid()
- plt.show()
-
-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。