当前位置:   article > 正文

大数据毕业设计Hadoop+Spark+Hive租房推荐系统 贝壳租房数据分析 租房爬虫 租房可视化 租房大数据 大数据毕设 机器学习 计算机毕业设计 机器学习 深度学习 人工智能_基于hive的民宿分析系统用的什么算法

基于hive的民宿分析系统用的什么算法

本系统所采用的数据来源于58同城网(https://hrb.58.com/chuzu),首先在 HTML 文件中,当某个超链接被选择后,被链接的那个 HTML 文件就会执行深度优先搜索,在搜索其他的超链接的结果以前,必须完整地进行搜索单独的一条链接。 深度优先搜索将会沿着 HTML 文件上的超链接不断的进行,进行到不能再深入为止。 返回到某个 HTML 文件,再继续选择这个 HTML 文件中的其他的超链接,不断循环。当没有其他的超链接可供选择时,说明到了叶子结点,无法继续再进行下去了,即该搜索操作已经结束,其次针对数据清洗以及数据存储。

本课题基于webmagic爬虫分析情况,做如下功能的大数据分析:

各区域租房平均单价数据分析
房屋面积与租金数据分析
房屋租金支付方式数据分析
房屋地区数据分析
房屋类型数据分析
租房面基房源数据分析
基于Spark-ML或者协同过滤算法进行房屋数据推荐(用户端)
针对以上需求,解决方案设计如下:

1.数据生产:使用Spark对数据进行清洗,采集数据包含如下内容:

分析数据要求:

房屋标题、房屋租金、租金支付方式、租赁方式、房屋类型、房屋大小、房屋装修、房屋朝向、房屋楼层、房屋高度、所在小区、所属区域、详细地址、房屋图片、房屋最近发布时间、房屋所属、房屋配置、房屋亮点、房屋描述、详情页地址等信息。
————————————————

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/572591
推荐阅读
相关标签
  

闽ICP备14008679号