python调用sparkmlib_使用scikit-learn 与Spark MLlib 进行机器学习

作者：码创造者 | 2024-07-05 16:13:36

踩

pyspark.mllib和sklearn

使用scikit-learn 与Spark MLlib 进行机器学习

我们要使用scikit-learn(简称sklearn)和Spark MLlib 构建预测模型。我们会使用sklearn 做回归分析，使用Spark MLlib 做分类。

为什么有了Spark MLlib 还要使用scikit-learn

尽管Spark 通过Spark MLlib(http://spark.apache.org/mllib/)提供了机器学习的功能，但scikit-learn 也包含了许多MLlib 所缺失的关于数据流和流程的工具。sklearn 还能让我们对新的样本实时进行分类或者回归，而不需要Kafka 和Spark Streaming，这样会简单很多。

本书中除scikit-learn 外使用的都是“大数据”工具，而在这样一本书中引入scikitlearn 的主要原因是在实践中它真的非常好用。Spark MLlib 是专为大规模数据设计的，而大数据却经常会在提取特征时整合归约为很小的数据集。这意味着sklearn 有的时候比Spark MLlib 更好。如果你要在数据流的中间使用简单的机器学习算法，那么务必使用MLlib。但是如果要实时预测而且数据能放进内存中，请考虑使用sklearn。我们会在第7章中同时用到这两个工具，而在第8 章和第9 章中只使用Spark MLlib。

喜欢的朋友可以添加我们的微信账号：

51CTO读书频道二维码

51CTO读书会第9群:808517103

【责任编辑：book TEL：(010)68476606】

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/790485