Python爬虫---爬取数据(上)_爬虫5000条

作者：喵喵爱编程 | 2024-07-23 05:37:08

踩

爬虫5000条

又是女票，拿了3万多条的13年某地区的公司信息，但是三年过去了，工商局的注册信息发生了巨大变化，有的注册资本增加了，有的公司老板变多了，更有不少公司不存在了，因此，需要一份最新的信息以便于她进行使用。
　　原先是想用工商局网站上进行爬取的，但是发现工商局网站好多验证信息，毕竟我这Python初学咋练的，是在是怕怕啊！幸好，找到一个名为XX查的网站，这个网站没有验证，可以直接查询，因此就拿这个网站来吧。
　　经过研究，发现必须要解析JavaScript才能拿到真实的数据，网上查找了下，发现使用phantomjs是比较简单的一种方式，于是就他了。
　　我的思路是这样的，数据是在文件中，查询后肯定有两种结果，查找成功的和查找失败的，这两种各自写在一个文件中，以便之后使用。对于成功的数据，继续对其查找联系方式，注册资金，开业状态等等需要的数据。这一块应该是一个类来进行的。另外一个类，打算使用Python内置的tkinter模块，写一个简单的界面，配置这两个文件，和显示实时的查询信息的。
以下是核心的爬虫类：

   class TianYanCha(object):
	def __init__(self, sucPath, failedPath):
		super(TianYanCha, self).__init__()
		self.fileSuc = open(sucPath, 'a')
		self.fileFailed = open(failedPath, 'a')
		self.driver = webdriver1
2
3
4
5

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/868459