当前位置:   article > 正文

大数据毕业设计hadoop+spark+hive知识图谱酒店推荐系统 酒店数据分析可视化大屏 酒店爬虫 高德地图API 酒店预测系统 计算机毕业设计 机器学习 深度学习 人工智能_基于hadoop和spark的大数据智能酒店预订系

基于hadoop和spark的大数据智能酒店预订系

核心算法代码分享如下:

  1. #Flink连接HDFS上面的CSV文件 使用Flink_SQL分析完入表
  2. ## 启动hadoop
  3. ## cd /data/hadoop/sbin
  4. ## sh /data/hadoop/sbin/start-all.sh
  5. ## 启动hive
  6. ## cd /data/hive
  7. ## nohup hive --service metastore &
  8. ## nohup hive --service hiveserver2 &
  9. import os
  10. from pyflink.common import Row
  11. from pyflink.table import (EnvironmentSettings, TableEnvironment, TableDescriptor, Schema,
  12. DataTypes, FormatDescriptor)
  13. from pyflink.table.expressions import lit, col
  14. from pyflink.table.udf import udtf
  15. env_settings = EnvironmentSettings.in_streaming_mode()
  16. table_env = TableEnvironment.create(env_settings)
  17. jars = []
  18. for file in os.listdir(os.path.abspath(os.path.dirname(__file__))):
  19. if file.endswith('.jar'):
  20. file_path = os.path.abspath(file)
  21. jars.append(file_path)
  22. str_jars = ';'.join(['file:///' + jar for jar in jars])
  23. table_env.get_config().get_configuration().set_string("pipeline.jars", str_jars)
  24. # table_env.get_config().get_configuration().set_float('taskmanager.memory.network.fraction',0.8)
  25. # table_env.get_config().get_configuration().set_string('taskmanager.memory.network.min','8gb')
  26. # table_env.get_config().get_configuration().set_string('taskmanager.memory.network.max','16gb')
  27. table_env.get_config().get_configuration().set_string('parallelism.default','1')
  28. #先读取hadoop_hdfs上的CSV文件
  29. table_env.execute_sql(
  30. """
  31. create table ods_rooms(
  32. `title` string COMMENT '标题',
  33. `addr` string COMMENT '地址',
  34. `fno` string COMMENT '民宿网站编号',
  35. `room_type` string COMMENT '房源类型',
  36. `price` int COMMENT '房源类型',
  37. `hu_type` string COMMENT '户型',
  38. `rent_type` string COMMENT '出租类型',
  39. `bed_type` string COMMENT '床型',
  40. `beds` int COMMENT '总床数',
  41. `peoples` int COMMENT '可住人数',
  42. `washs` int COMMENT '独立卫生间数量',
  43. `mianji` int COMMENT '面积',
  44. `fapiao` string COMMENT '发票是否提供',
  45. `good_rate` int COMMENT '好评率',
  46. `score` double COMMENT '综合评分',
  47. `wszk` double COMMENT '卫生状况',
  48. `fwtd` double COMMENT '服务态度',
  49. `tpwh` double COMMENT '图片吻合',
  50. `sszh` double COMMENT '设施装潢',
  51. `city_cn` string COMMENT '城市名称中文',
  52. `city_en` string COMMENT '城市名称英文',
  53. `url` string COMMENT '网站页面地址'
  54. ) WITH(
  55. 'connector' = 'filesystem',
  56. 'path' ='hdfs://bigdata:9000/minsu2024/rooms/rooms.csv',
  57. 'format' = 'csv'
  58. )
  59. """
  60. )
  61. #设置下沉到mysql的表
  62. table_env.execute_sql(
  63. """
  64. create table tables02(
  65. `room_type` string primary key ,
  66. `num` bigint
  67. ) WITH(
  68. 'connector' = 'jdbc',
  69. 'url' = 'jdbc:mysql://bigdata:3306/hive_minsu',
  70. 'table-name' = 'tables02',
  71. 'username' = 'root',
  72. 'password' = '123456',
  73. 'driver' = 'com.mysql.jdbc.Driver'
  74. )
  75. """
  76. )
  77. #数据分析并且导入
  78. #result=table_env.sql_query("select * from ods_zymk limit 10 ")
  79. table_env.execute_sql("""
  80. insert into tables02
  81. select room_type,count(1) num
  82. from ods_rooms
  83. group by room_type
  84. order by num desc
  85. limit 10
  86. """).wait()
  87. #print("表结构",result.get_schema())
  88. #print("数据检查",result.to_pandas())

研究目的(选题的意义和预期应用价值)

 意义

随着旅游业的快速发展,酒店行业的竞争越来越激烈。在如此激烈的市场竞争中,如何提供个性化、精准的酒店推荐服务成为了一个重要的问题。知识图谱是一种以图形化的方式呈现出来的知识库,它能够将不同来源、不同类型的数据融合在一起,并通过自然语言处理、机器学习等技术进行处理,从而提供更加精准、个性化的推荐服务。基于Spark的分布式计算和处理能力,可以处理大规模的数据,提高系统的运行效率,使得推荐系统能够在短时间内给出准确的推荐结果。总之,如下:

  • 提高酒店推荐系统的准确性和个性化:通过使用知识图谱,可以更加全面地了解用户的需求和偏好,从而提供更加精准、个性化的推荐服务。
  • 实现更加高效的推荐:基于Spark的分布式计算和处理能力,可以处理大规模的数据,提高系统的运行效率,使得推荐系统能够在短时间内给出准确的推荐结果。
  • 推动相关领域的发展:该论文的研究不仅推动推荐系统和知识图谱等相关技术的发展,还有助于推动相关领域的研究和应用。同时,对于企业和机构来说,可以提供更加高效、准确的酒店推荐服务,提升用户体验和业务水平。
  • 扩展知识图谱的应用领域:将知识图谱应用于酒店推荐领域,扩展了知识图谱的应用领域,为其他领域提供了新的思路和方法。

   

预期应用价值

  • 酒店行业提供更加高效、准确的酒店推荐服务,提升用户体验和业务水平。
  • 酒店相关推荐领域的研究和应用提供新的思路和方法,推动相关领域的发展和创新。
  • 为知识图谱技术的应用和发展提供新的思路和方法,促进知识图谱技术的进一步发展和完善。

与本课题相关的国内外研究现状(文献综述),预计可能创新的方面

国内外研究现状(文献综述)

研究现状

酒店推荐系统是一种基于用户偏好和需求的语言学习系统,能够为用户提供个性化的酒店推荐服务。近年来,研究者们在酒店推荐系统方面进行了广泛的研究。其中,基于协同过滤的方法和基于内容的方法是最为常见的。

基于协同过滤的方法主要是通过分析用户的历史行为和其他用户的行为,找出与目标用户兴趣相似的其他用户,然后根据这些相似用户的行为推荐酒店。基于内容的方法则是根据用户对酒店的评价和描述,提取出其中的关键词和语义信息,构建一个酒店的内容向量,然后计算目标用户与这些内容向量的相似度,推荐相似度最高的酒店。

然而,传统的推荐方法存在一些不足之处。例如,它们往往只考虑用户历史行为或物品属性,忽略了语义信息。此外,传统的推荐方法难以处理大规模数据,无法实时更新推荐结果。

挑战与不足

酒店推荐系统面临的挑战主要包括如何提高推荐的准确性和个性化程度,如何处理大规模数据,如何提高系统的实时性等。然而,现有的推荐方法在处理这些挑战时存在一些不足。

首先,传统的推荐方法无法有效利用语义信息。现有的推荐方法往往只考虑用户历史行为和酒店属性等较为结构化的数据,忽略了大量的文本评论和描述等语义信息。这些信息对于理解用户需求和酒店特点至关重要。

其次,现有的推荐方法难以处理大规模数据。随着数据的不断增长,传统的推荐方法往往会出现计算速度慢、内存消耗大等问题。此外,传统的推荐方法通常是离线运行的,无法实时更新推荐结果。这使得它们无法及时响应用户需求的变化和酒店信息的更新。

最后,现有推荐方法的个性化程度有限。虽然许多推荐方法声称能够根据用户的偏好和需求提供个性化的服务,但在实际应用中,它们的个性化程度仍显不足。这主要是因为这些方法往往只考虑了用户的历史行为和酒店属性等较为简单的信息,忽略了用户的兴趣爱好、行为习惯等更为深入的信息。

为了解决这些不足,本文提出了一种基于Spark和知识图谱的酒店推荐系统。该系统能够有效利用语义信息、处理大规模数据、提高系统的实时性,并为用户提供更加个性化的服务。

Spark和知识图谱的应用

Spark是一个大规模数据处理框架,具有高效的分布式计算能力,可以处理大规模的数据集。Spark的分布式计算能力可以大大提高酒店推荐系统的处理速度和效率,使其能够处理更多的数据和实现实时的推荐。

知识图谱是一种语义网络技术,能够将各种实体、概念及其之间的关系以图形化的方式呈现出来。在酒店推荐系统中,知识图谱可以用于提取和整合各种酒店和用户信息,提供更加精准的推荐。例如,通过分析酒店的知识图谱,可以获取酒店的类型、设施、价格等信息,从而更加准确地理解用户的需求;通过分析用户的知识图谱,可以了解用户的喜好、行为习惯等信息,从而提供更加个性化的服务。

未来研究方向

尽管本文提出的基于Spark和知识图谱的酒店推荐系统具有一定的创新性和实用性,但仍存在一些不足之处和需要进一步探讨的问题。例如,如何构建更加精准的用户画像、如何更加有效地提取和整合语义信息、如何提高系统的实时性等,将是未来研究的重要方向。

预计可能创新的方面

  • 通过使用知识图谱,可以更加全面地了解用户的需求和偏好,从而提供更加精准、个性化的推荐服务。
  • 使用Python爬虫采集上千万酒店数据信息。
  • 融合机器学习、深度学习的知识,实现4种个性化推荐算法。
  • 使用hadoop+spark+hive+flink大数据环境构建可视化大屏统计。
  • 使用卷积神经网络、线性回归预测算法对酒店热度、流量等进行预测。
  • 集成支付宝沙箱支付方便用户在线预订酒店。
  • 提供身份证上传自动认证、通过接收短信验证码修改密码等用户功能。
  • 训练lstm情感分析模型对酒店评论进行数据分析。

研究的主要内容与可行性分析

主要内容

  • 基于Spark的分布式计算和处理能力,对大规模的数据进行处理和分析,以提高系统的运行效率。
  • 利用知识图谱技术,将不同来源、不同类型的数据融合在一起,并通过自然语言处理、机器学习等技术进行处理,从而提供更加精准、个性化的推荐服务。
  • 基于用户历史行为、酒店信息、地理位置等数据源的信息融合和处理,进行更加全面和准确的推荐。
  • 设计和实现一个基大数据的酒店推荐系统,包括数据预处理、特征提取、模型训练、推荐等模块。
  • 对该系统的性能进行评估和测试,包括准确率、召回率、F1得分等指标的评估。
  • 使用大数据技术对酒店数据进行可视化分析,制作商业大屏报表。
  • 模拟酒店网站,实现基础业务功能:登录/注册、预订酒店、评论等。

可行性分析

一、技术可行性

基大数据的酒店推荐系统采用了先进的大数据处理技术和自然语言处理技术,可以高效地处理大规模的数据,并能够从文本中提取出丰富的语义信息。

大数据处理技术

Spark是一个大规模数据处理框架,具有高效的分布式计算能力,可以处理大规模的数据集。使用Spark可以大大提高酒店推荐系统的处理速度和效率,使其能够处理更多的数据和实现实时的推荐。

自然语言处理技术

知识图谱是一种语义网络技术,能够将各种实体、概念及其之间的关系以图形化的方式呈现出来。在酒店推荐系统中,知识图谱可以用于提取和整合各种酒店和用户信息,提供更加精准的推荐。例如,通过分析酒店的知识图谱,可以获取酒店的类型、设施、价格等信息,从而更加准确地理解用户的需求;通过分析用户的知识图谱,可以了解用户的喜好、行为习惯等信息,从而提供更加个性化的服务。

二、经济可行性

基大数据的酒店推荐系统采用了先进的大数据处理技术和自然语言处理技术,可以高效地处理大规模的数据,并能够从文本中提取出丰富的语义信息。相比传统的推荐系统,该系统可以减少人工参与和提高效率,从而降低成本。此外,该系统的实施可以帮助酒店提高用户满意度和提升竞争力,从而带来经济效益。

三、政治可行性

基大数据的酒店推荐系统采用了先进的大数据处理技术和自然语言处理技术,可以高效地处理大规模的数据,并能够从文本中提取出丰富的语义信息。推荐系统在政治方面有着重要的应用价值。通过基于用户行为等数据对用户进行推荐,可以有效地引导用户的消费行为和意识形态。这种推荐方式有可能被一些不法分子所利用,从而对国家政治稳定产生负面影响。因此,在设计和实现基大数据的酒店推荐系统的过程中,需要采取一些措施来确保系统的安全性。例如,可以采用数据加密、权限控制等措施来保护用户隐私和系统安全。此外,对于敏感信息的处理,必须严格遵守国家的法律法规和相关政策,以确保该系统的政治可行性。

四、社会可行性

基大数据的酒店推荐系统采用了先进的大数据处理技术和自然语言处理技术,可以高效地处理大规模的数据,并能够从文本中提取出丰富的语义信息。随着旅游业和酒店业的快速发展,用户对酒店推荐服务的需求越来越高。传统的推荐方法已经无法满足用户的需求。基大数据的酒店推荐系统可以根据用户的兴趣爱好、行为习惯等信息进行个性化推荐,从而提升用户体验和服务质量。此外,该系统的实施可以帮助酒店提高用户满意度和提升竞争力,促进旅游业和酒店业的发展。因此,基大数据的酒店推荐系统具有广泛的社会应用价值和社会效益,是可行的。

总之,基大数据的酒店推荐系统具有广泛的应用前景和实用性。采用先进的大数据处理技术和自然语言处理技术使得该系统在技术上可行;能够减少人工参与和提高效率使得该系统在经济上可行;同时政治可行性和社会可行性也得到了充分保障。因此,设计和实现基大数据的酒店推荐系统是可行的,具有重要的理论意义和实践价值。

本课题研究的主要方法和步骤

  • 文献调研:通过查阅相关文献和资料,了解推荐系统和知识图谱等相关技术的发展现状和应用情况。
  • 实验研究:通过实验的方式,对基大数据的酒店推荐系统进行设计和实现,并对系统的性能进行评估和测试。
  • 理论分析:通过对基大数据的酒店推荐系统的设计和实现进行分析和讨论,总结出系统的特点和优势。
  • 案例分析:通过对实际应用案例的分析和讨论,说明基大数据的酒店推荐系统的实用性和可扩展性。

研究进度安排

第1-3周熟悉题目,对的开发流程和使用进行熟悉和分析,完成开题报告、文献综述以及需求分析。

第4-5周完成总体设计,根据系统需要建立数据库。

第6-9周初步完成系统详细设计,实现基本功能。

第10-12周对系统进行细节完善。

第13-16周根据系统设计过程中的记录文挡及其功能编写毕业论文。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/772300
推荐阅读
相关标签
  

闽ICP备14008679号