当前位置:   article > 正文

机器学习——分类算法_机器学习分类算法

机器学习分类算法

K-近邻算法(KNN)

K Nearest Neighbor算法又叫KNN算法,它的原理是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

两个样本间距离可通过欧式距离计算,如a(a1,a2,a3),b(b1,b2,b3),则:

d=\sqrt{(a1-b1)^{2}+(a2-b2)^{2}+(a3-b3)^{2}}

k值取的太小容易受到异常点的影响,而取的过大容易受到样本不均衡的影响。 

  1. from sklearn.datasets import load_iris
  2. from sklearn.model_selection import train_test_split
  3. from sklearn.neighbors import KNeighborsClassifier
  4. from sklearn.preprocessing import StandardScaler
  5. def knn_demo():
  6. # 1)读取数据
  7. iris = load_iris()
  8. # 2)划分数据集
  9. x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6) # 前两个参数传的是特征值和目标值
  10. # 3)特征工程:标准化
  11. transfer = StandardScaler()
  12. x_train = transfer.fit_transform(x_train) # fit_transform其实是fit计算均值、标准差和transform按照计算的均值、标准差将数据转换两个步骤,它们都是转换器
  13. x_test = transfer.transform(x_test) # 这里测试集需要用训练集的均值和标准差来进行转换,所以transform就好
  14. # 4)KNN算法预估器
  15. estimator = KNeighborsClassifier(n_neighbors=3) # estimator是预估器,n_neighbors=3即k值为3的意思,不填默认为5
  16. estimator.fit(x_train, y_train) # 这里的fit做的工作是训练模型(也是计算的一种)
  17. # 5)模型评估
  18. # 方法一:直接比对真实值和预测值
  19. y_predict = estimator.predict(x_test)
  20. print("y_predict:\n", y_predict)
  21. print("直接比对真实值和预测值:\n", y_test == y_predict) # 每个数据都比对,相等的返回True
  22. # 方法二:计算准确率
  23. score = estimator.score(x_test, y_test) # 相当于在方法一比对的基础上算出了预测的准确率
  24. print("准确率为:\n", score)
  25. return None
  26. if __name__ == "__main__":
  27. knn_demo()

模型的选择与调优

  • 交叉验证
  • 超参数搜索

交叉验证(cross validation)

目的是为了让训练得到的模型结果更加准确做法:将拿到的训练数据,分为训练集和验证集。以下图为例:将数据分成4份,其中一份作为验证集,然后经过4次(组)的测试,每次都更换不同的验证集,即得到4组模型的结果,取平均值作为最终结果,称为4折交叉验证。

  • 训练集:训练集+验证集
  • 测试集:测试集 

超参数搜索-网格搜索(Gird Search) 

通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的k值),这种叫超参数。但是手动调参繁杂,所以需要对模型预设几种超参数组合。每种超参数都采用交叉验证来进行评估,最后选出最优参数组合建立模型。

  1. from sklearn.datasets import load_iris
  2. from sklearn.model_selection import train_test_split, GridSearchCV
  3. from sklearn.neighbors import KNeighborsClassifier
  4. from sklearn.preprocessing import StandardScaler
  5. def knn_gscv_demo():
  6. # 1)读取数据
  7. iris = load_iris()
  8. # 2)划分数据集
  9. x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6)
  10. # 3)特征工程:标准化
  11. transfer = StandardScaler()
  12. x_train = transfer.fit_transform(x_train)
  13. x_test = transfer.transform(x_test)
  14. # 4)KNN算法预估器
  15. estimator = KNeighborsClassifier()
  16. # 加入网络搜索与交叉验证
  17. param_dict = {"n_neighbors": [1, 2, 3, 4, 5, 6, 7, 8]} # 参数列表:相当于后面for循环一遍这些参数看看哪个好
  18. estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10) # 数据量不大时cv可以大一些,即交叉验证分割的多一些,否则数据量大时cv又大会太耗时间
  19. estimator.fit(x_train, y_train)
  20. # 5)模型评估
  21. # 方法一:直接比对真实值和预测值
  22. y_predict = estimator.predict(x_test)
  23. print("y_predict:\n", y_predict)
  24. print("直接比对真实值和预测值:\n", y_test == y_predict)
  25. # 方法二:计算准确率
  26. score = estimator.score(x_test, y_test)
  27. print("准确率为:\n", score) # 这里的准确率是训练集+测试集这个结构中测试集的预测准确率
  28. print("最佳参数:\n", estimator.best_params_)
  29. print("最佳结果:\n", estimator.best_score_) # 这里的最佳结构是测试集=测试集+验证集中验证集的结果
  30. print("最佳估计器:\n", estimator.best_estimator_)
  31. print("交叉验证结果:\n", estimator.cv_results_)
  32. return None
  33. if __name__ == "__main__":
  34. knn_gscv_demo()

朴素贝叶斯算法

朴素是因为加了个假设:特征与特征之间是相互独立的。故朴素贝叶斯算法=朴素+贝叶斯公式。

贝叶斯公式:

 p(c|w)=\frac{p(w|c)p(c)}{p(w)}

注:w为给定文档的特征值,c为文档类别 。

一般还需要引入拉普拉斯平滑系数进行计算,目的是为了防止计算出的分类概率为0(数据少时易出现)。

P(F1|C)=\frac{Ni+\alpha }{N+\alpha m}

\alpha为指定系数一般为1,m为训练文档中统计出的特征词个数。

  1. from sklearn.datasets import fetch_20newsgroups
  2. from sklearn.feature_extraction.text import TfidfVectorizer
  3. from sklearn.model_selection import train_test_split
  4. from sklearn.naive_bayes import MultinomialNB
  5. def nb_demo():
  6. """
  7. 用朴素贝叶斯算法对新闻进行分类
  8. :return:
  9. """
  10. # 1)读取数据
  11. news = fetch_20newsgroups(subset="all") # 数据集较大用fetch,subset默认是获取训练集,都要就all
  12. # 2)划分数据集
  13. x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)
  14. # 3)特征工程:文本特征抽取-tfidf
  15. transfer = TfidfVectorizer()
  16. x_train = transfer.fit_transform(x_train)
  17. x_test = transfer.transform(x_test)
  18. # 4)朴素贝叶斯算法预估器流程
  19. estimator = MultinomialNB()
  20. estimator.fit(x_train, y_train)
  21. # 5)模型评估
  22. # 方法一:直接比对真实值和预测值
  23. y_predict = estimator.predict(x_test)
  24. print("y_predict:\n", y_predict)
  25. print("直接比对真实值和预测值:\n", y_test == y_predict)
  26. # 方法二:计算准确率
  27. score = estimator.score(x_test, y_test)
  28. print("准确率为:\n", score)
  29. return None
  30. if __name__ == "__main__":
  31. nb_demo()

缺点:由于加了样本属性独立性的假设,所以如果特征属性有关联时效果不好。

决策树

类似于if-else嵌套构建起的一颗树。 

信息熵

简单来说信息是消除随机不定性的东西,比如当我不知道小明的年龄时,小明说他今年18岁,那么小明的话就是一条信息,这时小华接着说小明明年19岁,小华的话就不是信息了。而要衡量消除的不确定性有多少,就引入了信息熵。

H(x)=-\sum_{i=1}^{n}P(x_{i})log_{b}P(x_{i})

H的专业术语称之为信息熵,单位为比特,其中底数b一般为2。

决策树的划分条件之一 :信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)于特征A给定条件下D的信息条件熵H(D|A)之差:

g(D,A)=H(D)-H(D|A)

 比如从下面这个例子来理解公式,应该选取什么特征开始构建一棵树,从而决策是否贷款。

 

  1. from matplotlib import pyplot as plt
  2. from sklearn import tree
  3. from sklearn.datasets import load_iris
  4. from sklearn.model_selection import train_test_split
  5. from sklearn.tree import DecisionTreeClassifier, plot_tree
  6. def decision_demo():
  7. """
  8. 用决策树进行分类
  9. :return:
  10. """
  11. # 1)读取数据
  12. iris = load_iris()
  13. feature_names = iris.feature_names
  14. # 2)划分数据集
  15. x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
  16. # 3)决策树预估器
  17. estimator = DecisionTreeClassifier(criterion="entropy") # 表示用信息增益的熵分类
  18. estimator.fit(x_train, y_train)
  19. # 4)模型评估
  20. # 方法一:直接比对真实值和预测值
  21. y_predict = estimator.predict(x_test)
  22. print("y_predict:\n", y_predict)
  23. print("直接比对真实值和预测值:\n", y_test == y_predict)
  24. # 方法二:计算准确率
  25. score = estimator.score(x_test, y_test)
  26. print("准确率为:\n", score)
  27. # 5)决策树的可视化
  28. # 指定图幅大小
  29. plt.figure(figsize=(18, 12))
  30. # 绘制图像
  31. _ = tree.plot_tree(estimator, filled=True, feature_names=feature_names) # 由于返回值不重要,因此直接用下划线接收
  32. plt.show()
  33. # 保存图像
  34. # plt.savefig('./tree.jpg') # 如果要保存图片记得将plt.show()注释先
  35. return None
  36. if __name__ == "__main__":
  37. decision_demo()

集成学习方法之随机森林

集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立的学习和作出预测,这些预测最后结合成组合预测,因此优于任何一个单分类的作出预测。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数决定。

  1. from sklearn.datasets import load_iris
  2. from sklearn.ensemble import RandomForestClassifier
  3. from sklearn.model_selection import train_test_split, GridSearchCV
  4. def rf_demo():
  5. """
  6. 用随机森林进行分类
  7. :return:
  8. """
  9. # 1)读取数据
  10. iris = load_iris()
  11. # 2)划分数据集
  12. x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
  13. # 3)随机森林预估器
  14. estimator = RandomForestClassifier()
  15. # 加入网格搜索与交叉验证
  16. # n_estimators是森林里树的个数,max_depth是树的最大深度
  17. param_dict = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]}
  18. estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)
  19. estimator.fit(x_train, y_train)
  20. # 4)模型评估
  21. # 方法一:直接比对真实值和预测值
  22. y_predict = estimator.predict(x_test)
  23. print("y_predict:\n", y_predict)
  24. print("直接比对真实值和预测值:\n", y_test == y_predict)
  25. # 方法二:计算准确率
  26. score = estimator.score(x_test, y_test)
  27. print("准确率为:\n", score)
  28. # 最佳参数:best_params_
  29. print("最佳参数:\n", estimator.best_params_)
  30. # 最佳结果:best_score_
  31. print("最佳结果:\n", estimator.best_score_)
  32. # 最佳估计器:best_estimator_
  33. print("最佳估计器:\n", estimator.best_estimator_)
  34. # 交叉验证结果:cv_results_
  35. print("交叉验证结果:\n", estimator.cv_results_)
  36. return None
  37. if __name__ == "__main__":
  38. rf_demo()
  • 在当前所以算法中,具有极好的准确率
  • 能够有效的运行在大数据集上,处理具有高维特征的输入样本,而且不需要降维
  • 能够评估各个特征在分类问题上的重要性  
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/140881
推荐阅读
相关标签
  

闽ICP备14008679号