从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

机器学习——线性判别准则（LDA）和线性分类算法（SVM）_svm和lda区别

作者：从前慢现在也慢 | 2024-06-14 22:46:30

踩

svm和lda区别

目录酱

一、LDA与SVM简介
二、LDA实现代码
三、SVM数据集进行可视化分类
四、总结
参考链接

一、LDA与SVM简介

线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的有监督数据降维方法。LDA的主要思想是将一个高维空间中的数据投影到一个较低维的空间中，且投影后要保证各个类别的类内方差小而类间均值差别大，这意味着同一类的高维数据投影到低维空间后相同类别的聚在一起，而不同类别之间相距较远。
在机器学习中，支持向量机（SVM）是具有相关学习算法的监督学习模型，其分析用于分类和回归分析的数据。给定一组训练示例，每个示例标记为属于两个类别中的一个或另一个，SVM训练算法构建一个模型，将新示例分配给一个类别或另一个类别，使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点，映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间，并根据它们落在哪个边缘预测属于一个类别。

二、LDA实现代码

导入要使用的包

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as lda#导入LDA算法
from sklearn.datasets._samples_generator import make_classification #导入分类生成器
import matplotlib.pyplot as plt #导入画图用的工具
import numpy as np
import pandas as pd
1
2
3
4
5

获得数据集并进行训练，用上面导入的make_classification函数获得数据集

x,y=make_classification(n_samples=500,n_features=2,n_redundant=0,n_classes=2,n_informative=1,n_clusters_per_class=1,class_sep=0.5,random_state=100)
"""
n_features :特征个数= n_informative（） + n_redundant + n_repeated
n_informative：多信息特征的个数
n_redundant：冗余信息，informative特征的随机线性组合
n_repeated ：重复信息，随机提取n_informative和n_redundant 特征
n_classes：分类类别
n_clusters_per_class ：某一个类别是由几个cluster构成的

"""
plt.scatter(x[:,0],x[:,1], marker='o', c=y)
plt.show()
x_train=x[:60, :60]
y_train=y[:60]
x_test=x[40:, :]
y_test=y[40:]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

在这里插入图片描述

将数据集分为训练集和测试集，分类比为6：4，训练完之后利用测试集获得准确率

#分为训练集和测试集，进行模型训练并测试
x_train=x[:300, :300]
y_train=y[:300]
x_test=x[200:, :]
y_test=y[200:]
lda_test=lda()
lda_test.fit(x_train,y_train)
predict_y=lda_test.predict(x_test)#获取预测的结果
count=0
for i in range(len(predict_y)):
    if predict_y[i]==y_test[i]:
        count+=1
print("预测准确个数为"+str(count))
print("准确率为"+str(count/len(predict_y)))
1
2
3
4
5
6
7
8
9
10
11
12
13
14

三、SVM数据集进行可视化分类

1. 线性核

导入包

# 导入月亮数据集和svm方法
#这是线性svm
from sklearn import datasets #导入数据集
from sklearn.svm import LinearSVC #导入线性svm
from matplotlib.colors import ListedColormap
from sklearn.preprocessing import StandardScaler
1
2
3
4
5
6

获得数据

data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
# random_state是随机种子，nosie是方
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
plt.show()
1
2
3
4
5
6

在这里插入图片描述

进行标准化并训练数据

scaler=StandardScaler()# 标准化
scaler.fit(data_x)#计算训练数据的均值和方差
data_x=scaler.transform(data_x) #再用scaler中的均值和方差来转换X，使X标准化
liner_svc=LinearSVC(C=1e9,max_iter=100000)#线性svm分类器,iter是迭达次数，c值决定的是容错，c越大，容错越小
liner_svc.fit(data_x,data_y)
1
2
3
4
5

在这里插入图片描述
如图所示，会有警告但仍然有结果，警告不用理会。

写一个边界绘制函数，为下面可视化分类做准备

# 边界绘制函数
def plot_decision_boundary(model,axis):
    x0,x1=np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))
    # meshgrid函数是从坐标向量中返回坐标矩阵
    x_new=np.c_[x0.ravel(),x1.ravel()]
    y_predict=model.predict(x_new)#获取预测值
    zz=y_predict.reshape(x0.shape)
    custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,cmap=custom_cmap)
1
2
3
4
5
6
7
8
9
10
11

画图以及输出参数权重和模型截距

#画图并显示参数和截距
plot_decision_boundary(liner_svc,axis=[-3,3,-3,3])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
print('参数权重')
print(liner_svc.coef_)
print('模型截距')
print(liner_svc.intercept_)
1
2
3
4
5
6
7
8
9

在这里插入图片描述

2. 多项式核

导入包，多了pipeline核多项式回归

#这是多项式核svm
from sklearn import datasets #导入数据集
from sklearn.svm import LinearSVC #导入线性svm
from sklearn.pipeline import Pipeline #导入python里的管道
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler,PolynomialFeatures #导入多项式回归和标准化
1
2
3
4
5
6
7

生成数据，也是月亮数据集，和线性svm一致

data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
# random_state是随机种子，nosie是方
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
plt.show()
1
2
3
4
5
6

在这里插入图片描述

利用pipeline进行一体化编程，为了方便，将它放入函数中

 def PolynomialSVC(degree,c=10):#多项式svm
    return Pipeline([
            # 将源数据 映射到 3阶多项式
            ("poly_features", PolynomialFeatures(degree=degree)),
            # 标准化
            ("scaler", StandardScaler()),
            # SVC线性分类器
            ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42,max_iter=10000))
        ])
1
2
3
4
5
6
7
8
9

进行模型训练并画图

# 进行模型训练并画图
poly_svc=PolynomialSVC(degree=3)
poly_svc.fit(data_x,data_y)
plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])#绘制边界
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
print('参数权重')
print(poly_svc.named_steps['svm_clf'].coef_)
print('模型截距')
print(poly_svc.named_steps['svm_clf'].intercept_)
1
2
3
4
5
6
7
8
9
10
11

在这里插入图片描述

3. 高斯核

导入包

## 导入包
from sklearn import datasets #导入数据集
from sklearn.svm import SVC #导入svm
from sklearn.pipeline import Pipeline #导入python里的管道
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler#导入标准化
1
2
3
4
5
6

定义SVM高斯模型

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('svc',SVC(kernel='rbf',gamma=gamma))
    ])
1
2
3
4
5

进行模型训练画出图形，这里面的gamma参数也很重要，gamma参数越大，支持向量越小，和C是差不多，改变gamma的值，判断区域会发生变化

svc=RBFKernelSVC(gamma=100)#gamma参数很重要，gamma参数越大，支持向量越小
svc.fit(data_x,data_y)
plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
1
2
3
4
5
6

在这里插入图片描述

4. 鸢尾花数据集（多项式核和高斯核）

导入包还是一样的

#读取鸢尾花数据集
data=datasets.load_iris()
data_x=data.data
data_y=data.target
1
2
3
4

后面提取一下变量

plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
data_y=data_y[data_y<2]
plt.show()
1
2
3
4
5

训练模型得出参数和权重
高斯核

svc=RBFKernelSVC(gamma=100)#gamma参数很重要，gamma参数越大，支持向量越小
svc.fit(data_x,data_y)
plot_decision_boundary(svc,axis=[4,7,2,4.5])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
1
2
3
4
5
6

在这里插入图片描述

四、总结

初步了解和实践了LDA和SVM，作用方面的了解比之前深了几分，LDA是把所有点投影到直线，然后寻找分类直线，svm则是求出分界线附近的支持向量，通过支持向量来确认分界线，原理的了解还是蛮浅的，需要加深原理方面的学习

参考链接

https://blog.csdn.net/junseven164/article/details/121037899

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/719920