当前位置:   article > 正文

Spark MLlib机器学习 | 算法综合实战(一)(史上最详细)_机器学习算法实战

机器学习算法实战

                                      

==========                         =========

8.1.1 什么是机器学习

机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。

机器学习强调三个关键词:算法、经验、性能 

最小二乘法说起

                    

机器学习的泛化能力

机器学习的过拟合问题

8.1.2 基于大数据的机器学习

  

8.1.3 Spark 机器学习库MLLib

Spark 机器学习库从1.2 版本以后被分为两个包:

8.2 机器学习工作流

8.2.1 机器学习工作流概念

在介绍工作流之前,先来了解几个重要概念:

工作流的各个阶段按顺序运行,输入的DataFrame在它通过每个阶段时被转换

本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的

任务描述 查找出所有包含"spark"的句子,即将包含"spark"的句子的标签设为1,没有"spark"的句子的标签设为0。

8.2.2 构建一个机器学习工作流

(1)引入要包含的包并构建训练数据集

(2)定义 Pipeline 中的各个工作流阶段PipelineStage,包括转换器和评估器,具体地,包含tokenizer, hashingTF和lr。

(3)按照具体的处理逻辑有序地组织PipelineStages,并创建一个Pipeline。

现在构建的Pipeline本质上是一个Estimator,在它的fit()方法运行之后,它将产生一个PipelineModel,它是一个Transformer。

可以看到,model的类型是一个PipelineModel,这个工作流模型将在测试数据的时候使用

(4)构建测试数据

(5)调用之前训练好的PipelineModel的transform()方法,让测试数据按顺序通过拟合的工作流,生成预测结果

8.3 特征抽取、转化和选择

8.3.1 特征抽取:TF-IDF

“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。

词语由t表示,文档由d表示,语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。

TF-IDF就是在数值化文档信息,衡量词语能提供多少信息以区分文档。其定义如下:

TF-IDF 度量值表示如下:

TF: HashingTF 是一个Transformer,在文本处理中,接收词条的集合然后把这些集合转化成固定长度的特征向量。这个算法在哈希的同时会统计各个词条的词频。

IDF: IDF是一个Estimator,在一个数据集上

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/499735
推荐阅读
相关标签
  

闽ICP备14008679号