当前位置:   article > 正文

Python爬虫---爬取数据(上)_爬虫5000条

爬虫5000条

又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用。
  原先是想用工商局网站上进行爬取的,但是发现工商局网站好多验证信息,毕竟我这Python初学咋练的,是在是怕怕啊!幸好,找到一个名为XX查的网站,这个网站没有验证,可以直接查询,因此就拿这个网站来吧。
  经过研究,发现必须要解析JavaScript才能拿到真实的数据,网上查找了下,发现使用phantomjs是比较简单的一种方式,于是就他了。
  我的思路是这样的,数据是在文件中,查询后肯定有两种结果,查找成功的和查找失败的,这两种各自写在一个文件中,以便之后使用。对于成功的数据,继续对其查找联系方式,注册资金,开业状态等等需要的数据。这一块应该是一个类来进行的。另外一个类,打算使用Python内置的tkinter模块,写一个简单的界面,配置这两个文件,和显示实时的查询信息的。
以下是核心的爬虫类:

   class TianYanCha(object):
	def __init__(self, sucPath, failedPath):
		super(TianYanCha, self).__init__()
		self.fileSuc = open(sucPath, 'a')
		self.fileFailed = open(failedPath, 'a')
		self.driver = webdriver
  • 1
  • 2
  • 3
  • 4
  • 5
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/868459
推荐阅读
相关标签
  

闽ICP备14008679号