赞
踩
本系统所采用的数据来源于58同城网(https://hrb.58.com/chuzu),首先在 HTML 文件中,当某个超链接被选择后,被链接的那个 HTML 文件就会执行深度优先搜索,在搜索其他的超链接的结果以前,必须完整地进行搜索单独的一条链接。 深度优先搜索将会沿着 HTML 文件上的超链接不断的进行,进行到不能再深入为止。 返回到某个 HTML 文件,再继续选择这个 HTML 文件中的其他的超链接,不断循环。当没有其他的超链接可供选择时,说明到了叶子结点,无法继续再进行下去了,即该搜索操作已经结束,其次针对数据清洗以及数据存储。
本课题基于webmagic爬虫分析情况,做如下功能的大数据分析:
各区域租房平均单价数据分析
房屋面积与租金数据分析
房屋租金支付方式数据分析
房屋地区数据分析
房屋类型数据分析
租房面基房源数据分析
基于Spark-ML或者协同过滤算法进行房屋数据推荐(用户端)
针对以上需求,解决方案设计如下:
1.数据生产:使用Spark对数据进行清洗,采集数据包含如下内容:
分析数据要求:
房屋标题、房屋租金、租金支付方式、租赁方式、房屋类型、房屋大小、房屋装修、房屋朝向、房屋楼层、房屋高度、所在小区、所属区域、详细地址、房屋图片、房屋最近发布时间、房屋所属、房屋配置、房屋亮点、房屋描述、详情页地址等信息。
————————————————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。