赞
踩
***## 标题*爬虫有静态页面和动态页面,这里先讲解静态的选取,先看网页的源代码里面是否有需要爬取的关键词,有就是静态页面直接调用cookile get得到数据 **关于python的爬虫的一些内容与爬安居客与58同城的租房信息,选取一些关键词,进行爬取,代码如下:
import requests,pymysql from lxml import etree import time #爬取内容一下七个信息 #标题 户型 面积 区域 小区 交通 价格 #龥 0 replace('龥,驋,餼,鸺,麣,龤,閏,鑶,龥,鸺',0,1,2,3,4,5,6,7,8,9) #驋 龒 1 #餼 2 #鸺 3 #麣 4 #龤 5 #閏 6 #鑶 7 #龥 8 #鸺 9 db=pymysql.connect("localhost",'root','caohailan666','ai_13',charset='utf8') # 连接mysql def addPeopleSql(house_title,house_hxdx,house_road,house_name,house_bus_station,house_money): # db=pymysql.connect("localhost",'root','caohailan666','ai_13',charset='utf8') # 连接mysql cursor=db.cursor() # 游标对象 ,age,province,city,constellation,edu,job,headImage,salary,nick,lastLoginTime,maritalStatus,hight,weight,sex sql = "insert into room values(\'"+str(house_title)+"\',\'"+str(house_hxdx)+"\',\'"+str(house_road)+"\',\'"+str(house_name)+"\',\'"+str(house_bus_station)+"\',\'"+str(house_money)+"\')" # print(sql) cursor.execute(sql) db.commit() cursor.close() def get_house_info(page): url='https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p'+str(page)+'/' #https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p1/龒 #https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p2/ #https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1-p3/ # url='https://hf.zu.anjuke.com/fangyuan/shushanqu/fx1-x1/' headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36' } r=requests.get(url,headers=headers) open("amjuke.html",'w',encoding='utf-8').write(r.text) html=etree.HTML(r.text) all_house=html.xpath("//div[contains(@class,'zu-itemmod')]") print(len(all_house)) house_info=[] for once in all_house: house_title=''.join(once.xpath(".//div[@class='zu-info']/h3/a/b/text()")).strip() # print(house_title) house_hxdx=''.join(once.xpath(".//div[@class='zu-info']/p[1]/b/text()")).strip().replace('龥','0').replace('閏','6').replace('驋','1').replace('鑶','7').replace('鸺','9').replace('餼','2').replace('鸺','3').replace('麣','4').replace('龤','5').replace('齤','8').replace('龒','1') # print(house_hxdx) house_road=''.join(once.xpath(".//div[@class='zu-info']/address/a/text()")).strip() house_name=''.join(once.xpath(".//div[@class='zu-info']/address/text()")).strip() house_bus_station=''.join(once.xpath(".//div[@class='zu-info']/p[2]/span/text()")).strip() house_money=''.join(once.xpath(".//div[@class='zu-side']/p/strong[1]/b/text()")).strip().replace('龥','0').replace('閏','6').replace('驋','1').replace('鑶','7').replace('鸺','9').replace('餼','2').replace('鸺','3').replace('麣','4').replace('龤','5').replace('齤','8').replace('龒','1') house_info.append([house_title, house_hxdx, house_road, house_name, house_bus_station, house_money]) addPeopleSql(house_title, house_hxdx, house_road, house_name, house_bus_station, house_money) return house_info for page in range(1,10): house_info = get_house_info(page) print('%d条爬取成功' % (page)) print(house_info) time.sleep(2)
下面为代码运行的结果:即爬取的内容
D:\MyDownloads\anaconda\python.exe C:/Users/lan/PycharmProjects/untitled3/pachong/dazhongwnagtousu爬取/anjuke.py
60
1条爬取成功
[['蜀山区,选好房,精装龒室,可月付,交通便利,拎包入住', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['金大地时代天街 精装复式 随时看房拎包入住 可以月付 速来', '1119', '金大地时代天街(商住楼)', '蜀山-合作化路 繁华大道9780号', '整租南北有电梯', '1855'], ['精装龒室龒卫 押一付一 地铁餼号线科学大道 蜀山区,非中介', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['肿瘤医院 植物园附近 精装公寓 周租月租 租期灵活!', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['明珠广场 正大广场 精装公寓 拎包入住 交通便利', '1116', '金大地时代天街(商住楼)', '蜀山-合作化路 繁华大道9780号', '整租朝南有电梯', '1965'], ['万科金域华府精装一室之心城国购旁楼下就是五里墩地铁口随时看房', '1166', '万科金域华府(商住楼)', '蜀山-贵池路 长江西路', '整租南北有电梯2/3号线', '1965'], ['南艳湖旁精装网红复式 拎包入住 全新家具家电 拎包入住 月付', '1168', '加侨悦湖公馆(商住楼)', '蜀山-合作化路 繁华大道8039号', '整租朝南有电梯', '1855'], ['蜀山区 地铁旁 无中介 低租金 贴心服务 可月付 拎包入住', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1855'], ['华邦繁华里婚房装修,拎包入住,真实图片,爱干净,楼层不错,急', '1115', '华邦繁华里', '蜀山-青阳北路 长江西路446号', '整租朝南有电梯2/3号线', '1855'], ['信旺华府骏苑旁整租一室出租 家电齐全 地铁三号线', '1116', '信旺华府骏苑', '蜀山-望江西路 望江西路198号', '整租朝南有电梯3号线', '1655'], ['肿瘤医院 植物园附近 公司直租 周租月租 租期灵活!', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['蜀麓苑整租一室一厅出租 家具家电齐全 地铁口 拎包入住', '1116', '加侨悦山国际(商住楼)', '蜀山-西客站 田埠西路190号', '整租朝南有电梯2号线', '1655'], ['家电齐全,精装一室,可随时看房', '1115.7', '公园道1号(北区)', '蜀山-凤凰城 创业大道', '整租朝南有电梯2/3号线', '1126'], ['整租酒店式公寓无中介拎包入住红枫路餼号途虎养车车然之家亚夏大', '1515', '亚夏汽车大厦', '蜀山-合作化路 望江西路501号', '整租朝南有电梯', '1155'], ['(公司直租)地铁旁 低租金 可月付 交通便利 拎包入住', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['地铁餼号线 科学大道旁 精装龒室龒卫 押一付一 非中介', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝南有电梯2号线', '1655'], ['公寓直租 紧邻地铁 拎包入住 押一付一 可日租月租!', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['公园道龒号 福乐门国际广场 北京华联购物中心 餼号线 十里庙', '1115.7', '公园道1号(南区)', '蜀山-凤凰城 长江西路652号', '整租朝南有电梯2/3号线', '1155'], ['绩溪路安医大 农业大学旁精装酒店式公寓多套可选年付价格不等', '1126', '新城万象新天(商住楼)', '蜀山-三里庵 绩溪路321号', '整租朝南有电梯2号线', '965'], ['地铁口 精装一室公寓 可短租 独立厨房 卫生间阳台,蜀山区', '1516', '四海逸家', '蜀山-长江西路 社岗路', '整租朝北有电梯2号线', '1655'], ['华府骏苑精装龒室 押一付一 随时看房', '1161.2', '信旺华府骏苑', '蜀山-望江西路 望江西路198号', '整租朝南有电梯3号线', '1655'], ['大溪地商业街!天睿大厦旁!时代数码港!合肥国家大学科技园!', '1166.6', 人'博澳丽苑', '蜀山-黄潜望 环湖东路398号', '整租南北有电梯3号线', '1865'], ['龒鸺龒餼整租一室一厅,无中介费 民用水电通燃气好房急租', '1110.0', '大溪地御倾城', '蜀山-贵池路 贵池路', '整租朝南有电梯2/3号线', '1665'], ['餼号线十里庙!麣号线国防科技大学!实拍房源!月租月付!龤中介', '1115', '维也纳国际酒店', '蜀山-蜀山周边 黄山路565号', '整租南北有电梯3号线', '1855'], ['信达西山银杏 怀宁路与潜山路 政务区 精装修一室 月付', '1160.6', '信达西山银杏', '蜀山-黄潜望 怀宁路1833号', '整租朝南有电梯3号线', '1898'], ['非中介,一室一厅整租,租期灵活,可短租,拎包即住哦',
我还将其加入的数据库中,也在这展示一下,希望对一些想学爬虫的人有些许帮助,在代码里有连接数据库的代码,可以看看:
这爬取的内容做成表格 方便提取自己想要的数据,并可以分析数据。 下次还会更新更多爬虫的内容。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。