赞
踩
在大学的时候,每天都要面对一个世纪难题所困扰,那就是:中午吃什么?晚上吃什么?于是乎突发奇想,就想要统计一下全国一二线城市美食店的总体水平,吃不到也要看看别人家的餐桌摆的都是什么,哪些精品餐厅我还不知道,酒香不怕巷子深,我要把你们统统挖出来。
本项目主要是对大众点评中全国范围内一二线城市美食信息进行分析,暂时不考虑其它线的城市。整个项目分为项目目的的确定、数据的采集、数据的预处理、对数据的分析和项目总结这五个部分。在整个项目流程中主要用到了八爪鱼采集器、Excel 和Python这三样工具。
该项目主要是解决以下三个问题:
(a)哪个城市的店家数量最多,占比情况如何?
(b)分析这些城市的物价水平如何以及哪些美食类型最受欢迎?
(c)分析城市对美食品牌评分的影响?
在采集的过程中,由于大众点评不可以一次性获取目标城市的美食信息,为了采集到所有的目标数据,本人是在链家网开始页面上设置了筛选条件后,用八爪鱼采集器分批次对大众点评上所有的目标数据进行的采集,最终一共采集到了585915条数据。
本人是用Excel 2010这个工具对八爪鱼采集器采集到的脏数据进行的清洗,为避免在数据清洗的过程出现对数据的误操作,本人分批次对采集到的数据进行了清洗,最后再对数据进行汇总。清洗过程中,主要用到的工具是Python,涉及到pandas、numpy等Python库,个别地方用到了scipy库。同时,流程中的所有代码都运行于pycharm。在数据处理前对源数据进行备份。
导入模块:
import numpy as np
import pandas as pd
查看dazhong_data具体信息:
dazhong_data = pd.read_csv('C:/Users/admin/Desktop/22/dazhong.CSV',encoding='gbk', low_memory=False)
dazhong_data.info()
查看dazhong_data的前五条数据:
dazhong_data.head()
查看数据具体情况:
dazhong_data.describe()
在以上数据信息基本情况中可以看出,餐厅名称、评论人数、人均费用、口味、环境、服务、餐厅地址列都存在缺失值,其中餐厅名称和餐厅地址列缺失值数量为个位数,直接删除这几条异常数据也不影响数据分析结果,因此,对这两列存在缺失值的记录直接进行删除处理。
查看餐厅地址列缺失值记录
dazhong_data[dazhong_data['餐厅地址'].isnull()]
删除这几列即可,餐厅名称列作相同处理。
而评论人数、人均费用、口味、环境、服务这几列由于缺失值较多,删除这些记录会影响数据分析的结论,因此对于这几列作平均值填充操作。
df = dazhong_data.dropna()
df['口味'].replace(0, df['口味'].mean(), inplace=True)
到此,数据中的异常值处理完成。
每个美食类型的评论人数,排序,可以得出哪些美食类型最受顾客欢迎
df.groupby('美食类型').sum().sort_values('评论人数', ascending=False)['评论人数']
可以看出,在全国一二线城市中,最受欢迎的美食类型是火锅,且与第二名川菜差距较大,稳居第一,而米线类美食则受欢迎程度最低。
由此,再分析一下各种美食类型主要分布在哪些城市,便可以得出,哪些美食类型属于小众特色美食以及其主要分布区域。
df.groupby('美食类型').count().sort_values('城市', ascending=False)['城市']
由此可以看出,面包甜品类分布数量最多,但是并咩有火锅受欢迎程度高,可见,新创业者不建议开面包甜品类店铺。
接下来使用Tableau对数据进行可视化分析:
以下使用条形图描述每个城市的店家数量
可以看出,数量最多的几个城市依然是北京、上海、广州、深圳,由此可知,店家数量的多少,与当地经济水平关联较大。
用饼状图可以看出各个城市店家数量的占比情况
用条形图可以描述每个城市的物价水平,以人均费用作为指标进行分析
可以得到,在北京和上海这两个城市的物价水平远远高于其它城市,这两个城市享受美食的代价较高。
在这里使用树状图描述城市在评分中的分布情况
由此可以发现,差评率较多的城市主要为广州、深圳、成都、重庆等几个城市,而好评率较高的则在北京、天津、上海等几个城市,可以分析出这几个城市好的美食品牌应该较其它城市多。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。