赞
踩
LDA是文本分析里面一个很有名的topic
model,它基于一个简单的词袋模型,通过概率建模,得到文档和词汇的主题分布。这个模型很为人称道的一个特点,是它的数学推导是比较优雅的,由给定的先验Dirichlet分布,得到文档生成的似然函数,然后得到Gibbs
Sampling收敛时的分布,就是topic的对应分布。LDA在前些日子还是挺流行的,网络上好的介绍文章很多,比如这个blog,新浪的同学写的LDA漫游指南,还有腾讯的LDA数学八卦,都有很详细的推导过程。
支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法(实际上还有多分类,此文没涉及),在引入了核方法之后SVM也可以用来解决非线性问题。
牢记此3类,下面文章将按此顺序介绍,而且每一个都是逐渐递进的包含关系。
一般SVM有下面三种:
1、硬间隔支持向量机(线性可分支持向量机):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机。
2、软间隔支持向量机:当训练数据近似线性可分时,可通过软间隔最大化学得一个线性支持向量机。
3、非线性支持向量机:当训练数据线性不可分时,可通过核方法以及软间隔最大化学得一个非线性支持向量机。
导入包:
- from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as lda#导入LDA算法
- from sklearn.datasets._samples_generator import make_classification #导入分类生成器
- import matplotlib.pyplot as plt #导入画图用的工具
- import numpy as np
- import pandas as pd
获取数据及并训练:
- x,y=make_classification(n_samples=500,n_features=2,n_redundant=0,n_classes=2,n_informative=1,n_clusters_per_class=1,class_sep=0.5,random_state=100)
-
- plt.scatter(x[:,0],x[:,1], marker='o', c=y)
- plt.show()
- x_train=x[:60, :60]
- y_train=y[:60]
- x_test=x[40:, :]
- y_test=y[40:]
将训集和测试集分为6:4,训练完之后利用测试集获得准确率
- #分为训练集和测试集,进行模型训练并测试
- x_train=x[:300, :300]
- y_train=y[:300]
- x_test=x[200:, :]
- y_test=y[200:]
- lda_test=lda()
- lda_test.fit(x_train,y_train)
- predict_y=lda_test.predict(x_test)#获取预测的结果
- count=0
- for i in range(len(predict_y)):
- if predict_y[i]==y_test[i]:
- count+=1
- print("预测准确个数为"+str(count))
- print("准确率为"+str(count/len(predict_y)))
导入包:
- # 导入月亮数据集和svm方法
- #这是线性svm
- from sklearn import datasets #导入数据集
- from sklearn.svm import LinearSVC #导入线性svm
- from matplotlib.colors import ListedColormap
- from sklearn.preprocessing import StandardScaler
获取数据:
- data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
- # random_state是随机种子,nosie是方
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
- data_x=data_x[data_y<2,:2]#只取data_y小于2的类别,并且只取前两个特征
- plt.show()
标准化并训练数据:
- scaler=StandardScaler()# 标准化
- scaler.fit(data_x)#计算训练数据的均值和方差
- data_x=scaler.transform(data_x) #再用scaler中的均值和方差来转换X,使X标准化
- liner_svc=LinearSVC(C=1e9,max_iter=100000)#线性svm分类器,iter是迭达次数,c值决定的是容错,c越大,容错越小
- liner_svc.fit(data_x,data_y)
这里有一个警告,但并不影响我们输出
绘制边界函数和显示参数和截距
- # 边界绘制函数
- def plot_decision_boundary(model,axis):
- x0,x1=np.meshgrid(
- np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
- np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))
- # meshgrid函数是从坐标向量中返回坐标矩阵
- x_new=np.c_[x0.ravel(),x1.ravel()]
- y_predict=model.predict(x_new)#获取预测值
- zz=y_predict.reshape(x0.shape)
- custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
- plt.contourf(x0,x1,zz,cmap=custom_cmap)
- #画图并显示参数和截距
- plot_decision_boundary(liner_svc,axis=[-3,3,-3,3])
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
- plt.show()
- print('参数权重')
- print(liner_svc.coef_)
- print('模型截距')
- print(liner_svc.intercept_)
导入包:
- # 导入月亮数据集和svm方法
- #这是多项式核svm
- from sklearn import datasets #导入数据集
- from sklearn.svm import LinearSVC #导入线性svm
- from sklearn.pipeline import Pipeline #导入python里的管道
- from matplotlib.colors import ListedColormap
- import matplotlib.pyplot as plt
- from sklearn.preprocessing import StandardScaler,PolynomialFeatures #导入多项式回归和标准化
生成数据,和上面一致:
- data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
- # random_state是随机种子,nosie是方
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
- data_x=data_x[data_y<2,:2]#只取data_y小于2的类别,并且只取前两个特征
- plt.show()
- def PolynomialSVC(degree,c=10):#多项式svm
- return Pipeline([
- # 将源数据 映射到 3阶多项式
- ("poly_features", PolynomialFeatures(degree=degree)),
- # 标准化
- ("scaler", StandardScaler()),
- # SVC线性分类器
- ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42,max_iter=10000))
- ])
进行训练并画图:
- # 进行模型训练并画图
- poly_svc=PolynomialSVC(degree=3)
- poly_svc.fit(data_x,data_y)
- plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])#绘制边界
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
- plt.show()
- print('参数权重')
- print(poly_svc.named_steps['svm_clf'].coef_)
- print('模型截距')
- print(poly_svc.named_steps['svm_clf'].intercept_)
正确输出
第一步还是导入包
- ## 导入包
- from sklearn import datasets #导入数据集
- from sklearn.svm import SVC #导入svm
- from sklearn.pipeline import Pipeline #导入python里的管道
- import matplotlib.pyplot as plt
- from sklearn.preprocessing import StandardScaler#导入标准化
导入数据:
- data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
- # random_state是随机种子,nosie是方
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
- data_x=data_x[data_y<2,:2]#只取data_y小于2的类别,并且只取前两个特征
- plt.show()
-
- def PolynomialSVC(degree,c=10):#多项式svm
- return Pipeline([
- # 将源数据 映射到 3阶多项式
- ("poly_features", PolynomialFeatures(degree=degree)),
- # 标准化
- ("scaler", StandardScaler()),
- # SVC线性分类器
- ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42,max_iter=10000))
- ])
定义SVM高斯模型:
- def RBFKernelSVC(gamma=1.0):
- return Pipeline([
- ('std_scaler',StandardScaler()),
- ('svc',SVC(kernel='rbf',gamma=gamma))
- ])
进行模型训练画出图形,这里面的gamma参数也很重要,gamma参数越大,支持向量越小,和C是差不多,改变gamma的值,判断区域会发生变化
- svc=RBFKernelSVC(gamma=100)#gamma参数很重要,gamma参数越大,支持向量越小
- svc.fit(data_x,data_y)
- plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
- plt.show()
导入包和读取数据集
- import numpy as np
- import matplotlib.pyplot as plt
- from sklearn import datasets
- from sklearn.preprocessing import StandardScaler
- from sklearn.svm import LinearSVC
-
- #读取鸢尾花数据集
- data=datasets.load_iris()
- data_x=data.data
- data_y=data.target
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
- data_x=data_x[data_y<2,:2]#只取data_y小于2的类别,并且只取前两个特征
- data_y=data_y[data_y<2]
- plt.show()
-
标准化
- scaler=StandardScaler()# 标准化
- scaler.fit(data_x)#计算训练数据的均值和方差
- data_x=scaler.transform(data_x) #再用scaler中的均值和方差来转换X,使X标准化
- liner_svc=LinearSVC(C=1e9,max_iter=100000)#线性svm分类器,iter是迭达次数,c值决定的是容错,c越大,容错越小
- liner_svc.fit(data_x,data_y)
- # 边界绘制函数
- def plot_decision_boundary(model,axis):
- x0,x1=np.meshgrid(
- np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
- np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))
- # meshgrid函数是从坐标向量中返回坐标矩阵
- x_new=np.c_[x0.ravel(),x1.ravel()]
- y_predict=model.predict(x_new)#获取预测值
- zz=y_predict.reshape(x0.shape)
- custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
- plt.contourf(x0,x1,zz,cmap=custom_cmap)
- #画图并显示参数和截距
- plot_decision_boundary(liner_svc,axis=[-3,3,-3,3])
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
- plt.show()
- print('参数权重')
- print(liner_svc.coef_)
- print('模型截距')
- print(liner_svc.intercept_)
多项式核
- def PolynomialSVC(degree,c=10):#多项式svm
- return Pipeline([
- # 将源数据 映射到 3阶多项式
- ("poly_features", PolynomialFeatures(degree=degree)),
- # 标准化
- ("scaler", StandardScaler()),
- # SVC线性分类器
- ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42,max_iter=10000))
- ])
- # 进行模型训练并画图
- poly_svc=PolynomialSVC(degree=3)
- poly_svc.fit(data_x,data_y)
- plot_decision_boundary(poly_svc,axis=[-2,2.5,-3,3])#绘制边界
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
- plt.show()
- print('参数权重')
- print(poly_svc.named_steps['svm_clf'].coef_)
- print('模型截距')
- print(poly_svc.named_steps['svm_clf'].intercept_)
-
高斯核
- def RBFKernelSVC(gamma=1.0):
- return Pipeline([
- ('std_scaler',StandardScaler()),
- ('svc',SVC(kernel='rbf',gamma=gamma))
- ])
- svc=RBFKernelSVC(gamma=100)#gamma参数很重要,gamma参数越大,支持向量越小
- svc.fit(data_x,data_y)
- plot_decision_boundary(svc,axis=[-2,2.5,-3,3])
- plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
- plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
- plt.show()
-
通过对SVM和LDA的使用,加深了对这种方法的熟悉,机器训练还是很有意思的,做得并不是很困难,需要加深学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。