赞
踩
spark机器学习库目前有两个包:spark.ml,spark.mlib
公开数据、爬取的数据、企业的数据
转换器、预测器、管道
转换器:转换器可以将一个DataFrame转换为另一个DataFrame
预测器:一个预测是一个算法,预测器是学习算法的抽象,被用来训练数据。
管道:管道包含一系列的阶段,每个阶段是一个转换器或一个预测器。
补充:
(1)引入需要的包并构建训练数据
(2)定义管道的各个管道阶段Pipeline,包含转换器和预测器
(3)有序组织PipelineStages,并创建一个Pipeline
(4)构建测试数据
(5)用训练好的PipelineModel的transform方法,让测试数据按顺序通过拟合的管道,生成预测值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。