当前位置:   article > 正文

大数据毕业设计hadoop+spark+hive知识图谱酒店推荐系统

大数据毕业设计

(一)研究内容

本次研究主要是对某民宿租赁网站上的某城市的相关民宿数据进行获取、清洗、分析然后可视化的过程。数据获取将利用Python网络爬虫的Scrapy框架、Selenium、Xpath解析库等相关技术。民宿数据的清洗、存储、分析分别采用Hadoop的MapReduce、HDFS、Hive数据仓库,可以高效地处理大规模数据集,提高数据处理效率,并具有可扩展性、灵活性和可定制性等优点[12]。数据的分析展示使用ECharts图表库,根据需求设计各类图表,并提供交互式操作,使用户能够灵活地进行数据分析和展示[13]。首先利用Python编程语言,结合第三方爬虫Scrapy框架,编写爬虫程序,实现对民宿的民宿描述、位置、价格、面积、户数、类型、床数、宜住人数、评分、点评数等数据的定向抓取。获取数据后接下来进行数据的预处理操作,在Linux虚拟机上开启已经搭建好Hadoop集群的服务器并启动Hadoop集群,将爬取的数据以文件的形式上传至HDFS中,并编写MapReduce程序对爬取的数据实现数据清洗操作。接下来将已清洗的数据加载至Hive数据仓库中并使用Hive自带的类SQL语言对数据进行数据分析,例如描述性统计、区域对应民宿均价、区域对应民宿评分均值、区域对应民宿平均户数、用户评价关键词等词频统计等。最后引入ECharts图表库,使用HTML、CSS和JavaScript等前端技术,设计各类图表。该系统具有数据获取及时准确、存储高效、分析结果直观等特点,可为民宿行业决策者提供更准确的数据支持和分析结果。

用户登录
实现用户登录功能模块的设计,用户需要使用正确的账户密码才能登录到系统中,主要功能为用户的注册、登录、修改密码。

民宿基本属性分析
对某城市的民宿情况进行具体的分析、例如对民宿的价格、点评数、床位数、区域平均价格、区域平均评分、区域民宿数量等民宿的基本数据。

用户评价分析
对用户在民宿网站上的评价进行分析,对评价进行分析可以了解用户的需求和期望,从而改进服务质量和水平,提高用户满意度。其他用户可以通过评价了解民宿的设施、环境、服务、卫生等方面的具体情况,从而做出更明智的预订决策。

民宿特点分析
为了提高房源的知名度和曝光率、吸引用户消费,房东在房源网页上都会标注特征描述,对标注的数据进行提取分析,例如民宿的基本设施和特点、民宿的特色和个性化服务、民宿的质量和用户口碑。针对房东用什么服务、准备何种特殊设施、特殊地理位置等来吸引消费者进行分析。

民宿位置分析
民宿的选址往往取决于经济、交通、景点几个方面,对房源网页上爬取的交通、景点、餐饮、商超等位置信息进行分析,得出哪个位置的民宿密度较高,以及该区域的民宿分布特点.

可视化展示
把分析获得的数据利用可视化工具进行可视化操作结合前端页面实现展示效果。

(二)预期目标

提升客户体验:通过对民宿数据的分析可视化,可以了解客户评价、投诉情况等信息,从而及时发现问题并采取措施改进。此外,可以根据客户喜好和需求,提供个性化的服务和增值服务,提升客户体验。

提供决策参考:通过对民宿数据的分析可视化,可以为管理层提供决策依据。例如,可以根据数据分析结果,判断是否需要扩大或调整民宿的规模,选择合适的营销渠道,或者进行资源的合理配置。

(三)拟解决的关键问题

1、网站为了预防恶意爬虫都会布置反爬虫技术,这要求在使用爬虫技术时应该遵从法律规定,做到友好访问,不破坏、不妨碍网站的正常运行。

2、数据质量问题,民宿数据的准确性和完整性可能存在问题。解决方案是获得数据后对特殊的数据通过数据清洗和预处理提高数据质量。

3、系统性能问题,大数据量和复杂的计算可能导致系统性能下降。解决方案是通过系统优化和资源调度解决性能问题。

(三)实验手段

1、 数据获取模块:利用Python编程语言,结合第三方爬虫框架,编写爬虫程序,实现对民宿数据字段的定向抓取。

2、数据存储模块:利用Hadoop自带的HDFS,将爬取的数据以文件形式上传至HDFS,利用Hadoop的MapReduce对数据进行数据清洗,最后将清洗后的数据以json文件形式再次上传至HDFS中,进行存储。

3、数据清洗模块:利用Hadoop自带的的MapReduce编程模型,编写MapReduce程序对上传到HDFS中数据进行数据清洗操作。

4、数据分析模块:利用Hadoop自带的Hive数据仓库,编写Hive类SQL编程,对以清洗的数据进行数据分析。

5、 数据可视化模块:引入ECharts图表库,使用HTML、CSS和JavaScript等前端技术,设计各类图表。

(四)、关键技术

1、数据的爬取用到Python的Scrapy框架、Selenium、Xpath解析库等相关技术。

2、数据的存储用到Hadoop集群的HDFS,该数据库免费开源易于使用、且性能出色、方便后期存储大量数据和进行数据的提取处理。

3、数据的清洗用到了Hadoop集群中的MapReduce编程模型,利用MapReduce进行数据清洗可以大大提高数据的质量和准确性,为后续的数据分析和应用提供可靠的基础。

4、数据分析用到Hadoop集群的Hive数据仓库,操作接口采用类SQL语法,提供快速开发的能力。

5、数据的可视化利用HTML、CSS和JavaScript等前端技术,引入ECharts图表库设计各类图表。

毕业设计类型: A—工程设计;B-艺术设计;C—计算机软件设

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/648619
推荐阅读
相关标签
  

闽ICP备14008679号