赞
踩
2019年的春节假期会给我们留下深刻的印象,没有拜年、没有家庭聚餐、没有三五好友的寒暄嬉闹;2020年的春天也会给我们这代人留下深刻的印象,非典时期的我们还是两三岁傻乎乎的孩子,却在这个春天迎头撞上了新冠,选择宅在家大概是我们普通人仅有的贡献,虽经历了确诊人数的峰值时期,但也见证了这个曲线逐渐缓和,渐渐“春暖了雪也融了”。
今天是假期的第55天,是我宅在家中的第40天,也是网课开始的第5天,如果没有意外,会保持这种状态直到疫情得到控制、学校下达返校通知的那一天,“宅“可能是许多人的标配,但是两个月的时间应该很少有人经历过,这间小屋已经很难控制我躁动的心,所以待疫情之后,我想用一场旅行“弥补”自己,这会是许多人内心所想,只在等那一天的到来。
在“去哪儿网”爬取了一份有关“游记”的数据集,做一份简易的旅行攻略。
数据地址:去哪儿网—>攻略—>攻略库—>热门游记
如图上可爬取到一些有用的数据:出发时间、旅游天数、人均费用、结伴人物、玩法、一条简介、游记的浏览量,当然也包括旅游地点(在简介之上,未截图),去哪儿网是一个对爬虫比较友好的网站,不需要模拟登录,只需要加上请求头即可完成爬取,切记爬慢一点,拿着人家的数据还给人家添麻烦,属实过分。
数据概览:
这份数据集共包括1775个样本以及8个属性
通过观察数据,有以下问题需要处理:
部分代码如下:
data = data[~data['地点'].isin(['攻略'])]#~表示取反 data['出发时间']=pd.to_datetime(data['出发时间'])#转时间格式 data = data[~data['天数'].isin(['99+'])] data['天数'] = data['天数'].astype(int) data = data[data['人均费用'].values>200] data = data[data['天数']<=15] data = data.reset_index(drop=True) #Month是一个自定义函数,提取出出游月份,过于冗杂,不贴代码 data['旅行月份'] = data['出发时间'].apply(Month) def Look(e): #自定义函数转换浏览量类型 if '万' in e: num1 = re.findall('(.*?)万',e) return float(num1[0])*10000 else: return float(e) data['浏览次数'] = data['浏览量'].apply(Look).astype(int)
经数据清洗后:
“美食”、“成都”、“自驾”是权重最高的三个词,事实确实如此,当我们计划到一个陌生城市游玩时,可能脑海里第一个想到的并不是当地有什么风景可看,而是有什么美食可吃,大概每个人都能算得上一个吃货吧;自驾游也是当下火热的出游方式,随时都可以来一场说走就走的旅行。
这份数据集中,成都以106次访问成为Top1,成都的都江堰就足以引客无数,但可可爱爱熊猫的繁殖基地也位于成都,更是吸引了许多的熊猫粉前往,谁不想近距离接触一下这个铁憨憨国宝呢。
就价格而言,三亚成为Top1,人均费用近2000RMB,而平遥人均费用仅有1267RMB,一个是绝美的海岛风情,另一个则是饱经沧桑的平遥古城。
旅行时长主要分布在2-5天之间,3天最为普遍,太短会未尽兴致,太长又会花销太大,若有一份好的旅行计划,3天应该足够让你赏过一座城市的名胜,吃过大部分的特色美食,领略到这个城市的风情,也足够让你喜欢上这座城市。
“三五好友”结伴出游方式占比达到了40%,我认为这是最舒服的出游方式,没有之一,不需要有任何担忧,忘记生活中任何的烦恼,与朋友一起释放自己的天性,只顾开心就好啦。
“摄影”和“美食”可谓与旅行息息相关,一次完整的旅行最不能缺的就是“摄影”,拍美食发到朋友圈、拍风景发到朋友圈、拍完美的自己发到朋友圈;工作之后就没有了寒暑假,所以利用周末来一次短途旅行就成为了大多数人的首选。
2019年的旅游时间曲线大约在五月一号起伏最大,原因肯定是因为假期调休延长至4天,为了调整自己生活及工作的状态,很多人利用这个假期去旅行放松自己。
如果疫情能在4月底控制,而五月一还有假期的话,是旅游业会暴走呢?还是仍然会限制人群大量聚集呢?
八月暑假,与三五好友,来一场说走就走的旅行;于我而言,最想游荡西安,吃不停,玩不停,感受这座古城的风情,莫不是假期最好的选择。
综上述分析得到一些结论:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。