赞
踩
又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用。
原先是想用工商局网站上进行爬取的,但是发现工商局网站好多验证信息,毕竟我这Python初学咋练的,是在是怕怕啊!幸好,找到一个名为XX查的网站,这个网站没有验证,可以直接查询,因此就拿这个网站来吧。
经过研究,发现必须要解析JavaScript才能拿到真实的数据,网上查找了下,发现使用phantomjs是比较简单的一种方式,于是就他了。
我的思路是这样的,数据是在文件中,查询后肯定有两种结果,查找成功的和查找失败的,这两种各自写在一个文件中,以便之后使用。对于成功的数据,继续对其查找联系方式,注册资金,开业状态等等需要的数据。这一块应该是一个类来进行的。另外一个类,打算使用Python内置的tkinter模块,写一个简单的界面,配置这两个文件,和显示实时的查询信息的。
以下是核心的爬虫类:
class TianYanCha(object):
def __init__(self, sucPath, failedPath):
super(TianYanCha, self).__init__()
self.fileSuc = open(sucPath, 'a')
self.fileFailed = open(failedPath, 'a')
self.driver = webdriver
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。