赞
踩
一、Googleplaystore数据:
这组数据集提供了13个变量——App的名称、Category(分类)、Rating(评分)、Reviews(评论数)、Size(大小)、Installs(下载量)、Type(免费还是付费)、Price(价格)、Content.Rating(内容评级)、Genres(风格)、Last.updated(最近一次更新的时间)、Current.Ver(目前的版本)、Android.Ver(安卓的版本)
其中定类变量为:Category、Type、Content.Rating、Genres。
定序变量为:Rating、Reviews、Size、Installs、Price。
数据预处理:
data<-read.csv("C://Users//Administrator//Desktop//2.csv",na.strings=c("NA","","NAN","NaN")) #仅保留type中free和paid的数据 a<-which(data$Type!="Free" & data$Type!="Paid") data=data[-a,] #判别数据中哪些变量存在缺失值 which(is.na(data$Android.Ver)==TRUE) #发现Rating、Type、Content Rating、Current Ver、Android Ver含有缺失值 #去除App重复数据 data=data[!duplicated(data[,1]),] #去除缺失数据 data=na.omit(data) #将installs中的+,去除 Installs<-gsub("[^[:alnum:]///' ]", "", data[,6]) data=data[,-6] #将szie中存在'Varies with device',‘M’去除;k在excel中去除并已单位统一 Size<-gsub("[M]", "", data[,5]) Size<-gsub("[Varies with device]", "", Size) data=data[,-5] #‘Price'中存在'$',需要去除 Price=gsub("[$]","",data[,6]) data=data[,-6] #整合数据 da=cbind(data,Installs,Size,Price)
描述性统计并绘图
其中定类变量为:Category、Type、Content.Rating、Genres。
定序变量为:Rating、Reviews、Size、Installs、Price。
【注:游戏版本根据各游戏发布时间有差异,因此不做分析】
(1)先将所有的定序变量做交互分析,寻找数据可能存在的关系
#将变量转换为数值型
Rating=as.numeric(as.character(da$Rating))
Size=as.numeric(as.character(da$Size))
Price=as.numeric(as.character(da$Price))
Reviews=as.numeric(as.character(da$Reviews))
Installs=as.numeric(as.character(da$Installs))
da2=cbind(Rating,Size,Price,Reviews,Installs)
library(corrplot)
da2_cor<-cor(da2)
col3 <- colorRampPalette(c("blue", "white", "red")) #自定义指定梯度颜色
cor.plot <- corrplot(corr = da2_cor,col=col3(10),type="upper",tl.pos="d",tl.cex = 0.75) #画右上方 方法默认“圆形“
cor.plot <- corrplot(corr = da2_cor,add=TRUE, type="lower",col=col3(10),method&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。