赞
踩
本文主要采用Logistic回归实现数据的分类
数据来源:UCI数据库 wpbc.data
可以参考相关资源进行学习:
http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html
Logistic回归主要针对输入的数据是连续的变量,输出则是有限的数值型。
涉及到以下方面:
1. 输出y = w0+w1*x1+w2*x2+..... (x1,x2,...是样本的属性值,为连续型的变量,w0,w1,w2,...为所要求的参数,y为有限的数值型变量,表示样本所属类别)。
2. logistic模型: 1/(1+exp(-z)),其中z= w0+w1*x1+w2*x2+..... 。
3.算法实现
w初始化为1;
alph = 0.1; //设置步长,需根据情况逐步调整
i = 0;
while( i
zi = w0+w1*xi1+w2*xi2+.....
h = 1/(1+exp(-zi));
error = yi-h;
while(...)
wj = wj+alph *error*xij; // j表示第j个属性
end
end
以上算法过程在样本量比较小的时候可以实现,在样本量非常大的时候,需要考虑采用随机梯度下降法,即随机从总的样本的选出小的样本集来用于迭代过程(可以百度相关资料)。
本文主要采用了梯度下降法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。