赞
踩
R语言也是很火热的程序
在这里可以实现机器学习等
可以有效的进行数据处理 操作等
可以为有效的数据展示和分析典型较大的基础
---------------主要包含
R语言的数据预处理
数据特征提取
数据分类的工作
------------------
需要不断的进行更新
使用在书系列网站上的churn数据集进行下列练习:
基本的字段包含:
State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
洲、帐号长度、区号、电话、国际计划、虚拟邮件计划、虚拟邮件信息、日分钟、日呼叫、日收费、夜分钟、夜呼叫、夜收费、国际分钟、国际呼叫、国际收费、客户服务电话、用户
33问. 探究是否有任何变量缺少值。
34问. 比较区域代码和州字段。讨论任何明显的异常情况。
也可以结合利用函数summary()来判断数据集中分类变量是否含有缺失值和有关的情况,需要通过查看网站State Area Codes (50states.com)的具体情况,把相关的州和对应的地区区域代码查看是否有问题。
图2-34-1 代表的是州对应的代码对应的映射表
408对应的:Rock, Burbank, Cambrian Park, Campbell, Cupertino, East Foothills, Fruitdale, Gilroy, Lexington Hills, Los Gatos, Milpitas, Monte Sereno, Morgan Hill, Palo Alto, San Jose, San Martin, Santa Clara, Saratoga, Sunnyvale
415对应的:Alto, Belvedere, Black Point-Green Point, Bolinas, Brisbane, Corte Madera, Daly City, Fairfax, Inverness, Kentfield, Lagunitas-Forest Knolls, Larkspur, Lucas Valley-Marinwood, Marin City, Mill Valley, Muir Beach, Nicasio, Novato, Point Reyes Station, Ross, San Anselmo, San Francisco, San Geronimo, San Rafael, Santa Venetia, Sausalito, Sleepy Hollow, Stinson Beach, Strawberry, Tamalpais-Homestead Valley, Tiburon, Woodacre
510对应的:Alameda, Albany, Ashland, Bayview, Berkeley, Castro Valley, Cherryland, Crockett, East Richmond Heights, El Cerrito, El Sobrante, Emeryville, Fairview, Fremont, Hayward, Hercules, Kensington, Montalvin Manor, Newark, North Richmond, Oakland, Piedmont, Pinole, Port Costa, Richmond, Rodeo, Rollingwood, San Leandro, San Lorenzo, San Pablo, Sunol, Tara Hills, Union City
35问. 用图表直观地判断在乘客服务电话数量上是否有异常值。
可以通过图找一些离散点,参考老师给的讲义和资料。
从图中画出图,包含不限于曲线图和直方图的形式。主要的方法案例如下:
hist(churn$CustServ.Calls,breaks=30)#,xlim=c(0,5000))
plot(churn$CustServ.Calls,main='CustServ.Call',
ylab="CustServ.Calls",col=rainbow(2))
plot(churn$Day.Mins,churn$CustServ.Calls,main='CustServ.Call',
ylab="CustServ.Calls",col=rainbow(1))
36问. 确定属于异常值的客户服务电话范围,使用以下方法:
37问.使用z分数标准化来转换当天的分钟数。
根据课件的标准化方案来做
38问 工作与偏斜度如下:
a.计算日分钟的偏度
b.然后计算Z-score标准化日分钟的偏度。发表评论。
c.根据偏度值,你认为日分钟是偏还是接近完美对称的吗?
主要根据相关的ppt内容完善和编程实现
39问. 构建日分钟的正态概率图。对数据的正常性进行评论。
得到概率分布函数,主要采取的一些公式如下:
s =churn_min #产生样本
d <- density(s)
plot(d, col="green", ylim=c(0, 0.15))
dim(s)
参考的案例如下,其代表了如何进行正态分布的作图
函数density()估计核密度。 下面的程序作直方图, 并添加核密度曲线:
tmp.dens <- density(x)
hist(x, freq=FALSE,
ylim=c(0,max(tmp.dens$y)),
col=rainbow(15),
main='正态随机数',
xlab='', ylab='频数')
lines(tmp.dens, lwd=2, col='blue')
40问完成如下工作:
a.构建国际分钟的正态概率图。
b.是什么阻止了这个变量服从正态分布。
c.构造一个标志变量来处理(b)中的情况。
d.构造导出正态概率图。对派生变量的正规性进行评价。
根据正态分布的特点,找到不属于正态分布的数据,构造新的数据,得到分布函数即可
41问.使用Z-score标准化转换夜间分钟属性。使用一个图。描述标准化值的范围。
根据标准化的公式,然后找到summary的数值,得到标准化的最大和最小值。
33问. 探究是否有任何变量缺少值。
方法1 采取sum(is.na)的方法
图3-1 sum(is(na)的总结
方法2 采取summary的方法
图3-2 summuary的总结
通过summuary的总结,暂时没有发现有异常数值
方法3:通过mice的方法检测
library(mice)
md.pattern(cars2)
print('zuoye')
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。