赞
踩
关于逻辑回归的算法原理 Spark官方文档里有说明,另外网上也有中文翻译文档可参考。本笔记是学习MLlib的辑回归API使用时一道练习题记录,通过这道练习,可以掌握基本使用。MLLib提供了两种算法实现,分别是SGD梯度下降法和LBFGS。
1. 数据文件
交通事故的统计文件,四列,accident(去年是否出过事故,1表示出过事故,0表示没有),age(年龄 数值型),vision(视力状况,分类型,1表示好,0表示有问题),drive(驾车教育,分类型,1表示参加过驾车教育,0表示没有)。第1列是因变量,其它3列是特征。这是一个用空格分隔的文本文件,要使用MLLib算法库,首先要读文件并转成LabeledPoint数据类型的RDD。
1 17 1 1
1 44 0 0
1 48 1 0
1 55 0 0
1 75 1 1
0 35 0 1
0 42 1 1
0 57 0 0
0 28 0 1
0 20 0 1
0 38 1 0
0 45 0 1
0 47 1 1
0 52 0 0
0 55 0 1
1 68 1 0
1 18 1 0
1 68 0 0
1 48 1 1
1 17 0 0
1 70 1 1
1 72 1 0
1

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。