当前位置:   article > 正文

Apache Spark 3.0 机器学习库(MLlib)指南_sparkml官方文档地址

sparkml官方文档地址

学习地址:https://spark.apache.org/docs/latest/ml-guide.html 

学习目录

MLlib:主要指南

MLlib:基于RDD的API指南

 

机器学习库(MLlib)指南

MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且容易。在较高级别,它提供了以下工具:

  • ML算法:常见的学习算法,例如分类,回归,聚类和协作过滤
  • 特征化:特征提取,变换,降维和选择
  • 管道:用于构建,评估和调整ML管道的工具
  • 持久性:保存和加载算法,模型和管道
  • 实用程序:线性代数,统计信息,数据处理等

声明:基于DataFrame的API是主要API

基于MLlib RDD的API现在处于维护模式。

Spark 2.0开始,软件包中基于RDD的API spark.mllib已进入维护模式。现在,用于Spark的主要机器学习API是软件包中基于DataFrame的API spark.ml

这意味着什么?

  • MLlib仍将spark.mllib通过错误修复来支持基于RDD的API 。
  • MLlib不会向基于RDD的API添加新功能。
  • 在Spark 2.x发行版中,MLlib将向基于DataFrames的API添加功能,以与基于RDD的API达到功能奇偶。

为什么MLlib切换到基于DataFrame的API?

  • 与RDD相比,DataFrames提供了更加用户友好的API。DataFrames的许多好处包括Spark数据源,SQL / DataFrame查询,Tungsten和Catalyst优化以及跨语言的统一API。
  • 用于MLlib的基于DataFrame的API为ML算法和多种语言提供了统一的API。
  • DataFrame有助于实际的ML管道,特别是功能转换。有关详细信息,请参见管道指南

什么是“ Spark ML”?

  • “ Spark ML”不是正式名称,但有时用于指代基于MLlib DataFrame的API。这主要归因于org.apache.spark.ml基于DataFrame的API使用的Scala软件包名称,以及我们最初用来强调管道概念的“ Spark ML Pipelines”一词。

MLlib是否已弃用?

  • 不会。MLlib同时包含基于RDD的API和基于DataFrame的API。基于RDD的API现在处于维护模式。但是既不弃用API,也不弃用MLlib。

依存关系

MLlib使用线性代数程序包Breeze,该程序依赖于 netlib-java进行优化的数值处理。如果本机库1在运行时不可用,您将看到警告消息,而将使用纯JVM实现。

由于运行时专有二进制文件存在许可问题,因此netlib-java默认情况下,我们不包含的本机代理。要配置netlib-java/ Breeze使用系统优化的二进制文件,请包含 com.github.fommil.netlib:all:1.1.2(或使用构建Spark -Pnetlib-lgpl)作为项目的依赖项,并阅读netlib-java文档以获取平台的其他安装说明。

最受欢迎的本机BLAS(例如Intel MKLOpenBLAS)可以在单个操作中使用多个线程,这可能与Spark的执行模型冲突。

将这些BLAS实现配置为使用单个线程进行操作实际上可以提高性能(请参阅SPARK-21305)。通常,最好将此配置与每个Spark任务配置为使用的内核数匹配,默认情况下为1,通常保留为1。

请参考以下资源,以了解如何配置这些BLAS实现使用的线程数:Intel MKLIntel oneMKLOpenBLAS。请注意,如果未在系统中正确配置nativeBLAS,则将使用java实现(f2jBLAS)作为后备选项。

要在Python中使用MLlib,您将需要NumPy 1.4版或更高版本。

3.0中的亮点

以下列表突出显示了3.0 Spark版本中添加到MLlib的一些新功能和增强功能:

迁移指南

现在,迁移指南已存档在此页面上

  1. 要了解有关系统优化的本机的好处和背景的更多信息,您可能希望观看Sam Halliday的ScalaX关于Scala中的高性能线性代数的演讲。 

MLlib:基于RDD的API

本页记录了MLlib指南中有关基于RDD的API(spark.mllib程序包)的各个部分。请参阅基于DataFrame的API(程序包)的MLlib主指南,该指南spark.ml现在是MLlib的主要API。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/975796
推荐阅读
相关标签
  

闽ICP备14008679号