赞
踩
欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。
本项目利用 python 网络爬虫抓取某租房网站的租房信息,完成数据清洗和结构化,存储到数据库中,搭建web系统对租房的面积、朝向、有无地铁、公共交通工具等价格影响因素进行统计分析并可视化展示。
功能主要包括:
利用 python 的 request + beautifulsoup 从某租房平台抓取深圳(其他城市修改相应的租房网址即可)的租房数据:
def parse_zu_fang_divs(all_zu_fang_divs): house_infoes = [] for zu_fang_div in all_zu_fang_divs: try: # 标题 title = zu_fang_div.select('b.strongbox')[0].text.strip() props = zu_fang_div.select('p.details-item.tag')[0].text.strip().split(' ')[0].strip() # 室厅,面积,所在楼层 shiting, mianji, louceng = props.split('|') # 2室1厅|93平米|中层(共26层) address_tag = zu_fang_div.select('address.details-item')[0] address = address_tag.text.strip() xiaoqu, address = address.split('\n') # 小区名称 xiaoqu = xiaoqu.strip() address = address.strip() qu, data2 = address.split(' ') # 小区所在一级区,二级街道 first_qu, second_jiedao = qu.split('-') tags = zu_fang_div.select('p.details-item.bot-tag')[0].text.strip() # 标签 tags = tags.split('\n') # 租金 price = zu_fang_div.select('div.zu-side')[0].text.strip() house_infoes.append({ '小区名称': xiaoqu, '小区所在一级区': first_qu, '二级街道': second_jiedao, '室厅': shiting, '面积': mianji, '所在楼层': louceng, '标签': tags, '租金': price }) except: pass return house_infoes
本项目利用 python 网络爬虫抓取某租房网站的租房信息,完成数据清洗和结构化,存储到数据库中,搭建web系统对租房的面积、朝向、有无地铁、公共交通工具等价格影响因素进行统计分析并可视化展示。
————————————————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。