赞
踩
这是全国旅游攻略的第四篇,前面三篇分别是:
地理位置从东南沿海,走到中部,然后到达西南,今天来到了历史文化浓厚的西北城市,历史曾至少有13个朝代在此建都:西安,自己没有去过,只是曾经坐火车路过一次,也很期待西安到底有哪些好吃的美食和好玩的地方
先看看西安不同美食店铺数量
以下内容知识来自维基百科,纯科普而已,讲述的是西安历史名称变化,学习下历史知识:
数据来自网上的某公开网站,通过爬虫方式获取,具体过程参考:
涉及到的主要爬虫知识点:
⚠️:以后会专门写一篇文章讲解Python中如何基于re模块通过正则解析数据
总共8个字段信息:中文名、英文名、攻略数、评论数、位置、排名、驴友占比、简介
6个字段信息:中文名、得分、均价、地址、推荐菜、评价
import pandas as pd import re import csv import json import requests import random # 显示所有列 # pd.set_option('display.max_columns', None) # 显示所有行 # pd.set_option('display.max_rows', None) # 设置value的显示长度为100,默认为50 # pd.set_option('max_colwidth',100) # 绘图相关 import jieba import matplotlib.pyplot as plt from pyecharts.globals import CurrentConfig, OnlineHostType from pyecharts import options as opts # 配置项 from pyecharts.charts import Bar, Scatter, Pie, Line, HeatMap, Funnel, WordCloud, Grid, Page from pyecharts.commons.utils import JsCode from pyecharts.globals import ThemeType,SymbolType import plotly.express as px import plotly.graph_objects as go from plotly.subplots import make_subplots # 子图
首先看下整体的数据,显示有1864个景点:
西安景点的个数主要是分布在:西安市区、周至、蓝田、临潼、高陵
location = df["location"].value_counts().reset_index().rename(columns={"index":"location","location":"number"})
c = (
Pie(init_opts=opts.InitOpts(theme=ThemeType.MACARONS))
.add("西安景点个数",[list(z) for z in zip(location["location"].tolist(),location["number"].tolist())])
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()
西安有些景点的相关评论非常之多,看下哪些景点的评论靠前?
df = pd.read_csv("西安景点.csv")
comment_top10 = df.sort_values("comment",ascending=False)[:10]
# 作图
fig = px.bar(comment_top10,x="cn_title",y="comment",color="comment",text="comment")
fig.update_traces(textposition="outside")
fig.show()
可以看到评论最火的是:秦始皇帝陵博物院(兵马俑),高达20339条评论,其次是秦始皇陵,16050条。的确是西安的热门景点。
再看看景点攻略数的情况:
# pyecharts实现
x_data = strategy_top10["cn_title"].tolist()
y_data = strategy_top10["strategy"].tolist()
c = (
Bar(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add_xaxis(x_data)
.add_yaxis("西安景点攻略数前10名",y_data)
.set_global_opts(
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-20)), # 设置旋转角度
)
)
c.render_notebook()
提取攻略数和评论都大于1000的景点:
comment_strategy = df[(df["comment"] >= 1000) & (df["strategy"] >= 100)] fig = px.scatter(comment_strategy, x="comment", y="strategy", color="comment", size="strategy", text="cn_title" ) # ['top left', 'top center', 'top right', 'middle left', # 'middle center', 'middle right', 'bottom left', 'bottom center', 'bottom right'] fig.update_traces(textposition="top center") fig.show()
从图中显示结果来看,有几个必去的景点:
# 西安市区景点排名
ranking_xian = df[(df["location"] == "西安") & (df["ranking"] != 0)].sort_values("ranking",ascending=True)[1:][:20]
ranking_xian
可以看到很多排名靠前的景点的确评论数和攻略数也很多,比如:
西安的宫殿应该是很多的,我们看看获取的数据中到底有多少个宫殿相关的景点:
我们看下前10个宫殿的景区:华清宫、大明宫国家遗址公园、大明宫遗址博物馆、兴庆宫公园、阿房宫遗址等
通过上面的分析我们发现:**秦始皇帝陵博物馆(兵马俑)**在西安是一个非常出名的景点,那么我们看看和秦始皇相关的景点有哪些?
qinshihuang = df[df["cn_title"].str.contains("秦始皇")].reset_index(drop=True)
qinshihuang
上面的结果显示:总共是7个景点,其中秦始皇帝陵博物馆(兵马俑)和秦始皇陵最为热门。
每个城市都有自己不同不样的公园,我们看看西安公园的个数:
park = df[df["cn_title"].str.contains("公园")].reset_index(drop=True)
print("公园个数:{}".format(len(park)))
# 结果
公园个数:133
结果显示是133个,真的不少!!!看下数据中的前5个公园:
大明宫国家遗址公园、太平国家森林公园、曲江海洋极地公园、曲江池遗址公园评论还是靠前的
我们驴友占比较高的景点:
lvyou = df.sort_values("lvyou_number",ascending=False)[:10].reset_index(drop=True)
fig = px.bar(lvyou,x="cn_title",y="lvyou_number",text="lvyou_number")
fig.update_traces(textposition="outside")
fig.show()
果然:回民街、秦始皇帝陵博物院(兵马俑)、大雁塔、陕西历史博物馆等是驴友心中不错的景点
通过上面对景点数据的分析,我们发现西安下面几个景点很值得一去:
西安美食数据总共有1870条,看下前5条数据:
北方人很喜欢吃面食,我们看看西安的面馆、面店:
df1 = pd.read_csv("西安美食.csv")
noodles = df1[df1["中文名"].str.contains("面")].reset_index(drop=True)
noodles
print("面馆总数:",len(noodles))
# 结果
面馆总数: 115
根据得分字段的降序观察前10名的店铺:
排名第一的小魏哥秘制果仁烤面筋,值得你去尝试下,地址也给你了。
Biang字是这么写的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。