当前位置:   article > 正文

python调用sparkmlib_使用scikit-learn 与Spark MLlib 进行机器学习

pyspark.mllib和sklearn

使用scikit-learn 与Spark MLlib 进行机器学习

我们要使用scikit-learn(简称sklearn)和Spark MLlib 构建预测模型。我们会使用sklearn 做回归分析,使用Spark MLlib 做分类。

为什么有了Spark MLlib 还要使用scikit-learn

尽管Spark 通过Spark MLlib(http://spark.apache.org/mllib/)提供了机器学习的功能,但scikit-learn 也包含了许多MLlib 所缺失的关于数据流和流程的工具。sklearn 还能让我们对新的样本实时进行分类或者回归,而不需要Kafka 和Spark Streaming,这样会简单很多。

本书中除scikit-learn 外使用的都是“大数据”工具,而在这样一本书中引入scikitlearn 的主要原因是在实践中它真的非常好用。Spark MLlib 是专为大规模数据设计的,而大数据却经常会在提取特征时整合归约为很小的数据集。这意味着sklearn 有的时候比Spark MLlib 更好。如果你要在数据流的中间使用简单的机器学习算法,那么务必使用MLlib。但是如果要实时预测而且数据能放进内存中,请考虑使用sklearn。我们会在第7章中同时用到这两个工具,而在第8 章和第9 章中只使用Spark MLlib。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

点赞 0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/790485
推荐阅读
相关标签
  

闽ICP备14008679号