赞
踩
由于工作要求,需要爬取企查查中批发业的所有企业的详细信息,本来准备用最简单的八爪鱼来爬取,但发现八爪鱼的爬取很鸡肋,因此特地学习python爬虫,以下只是简单的爬取需要的信息,之后更复杂的爬取还需要不断加强。
一、查看robots协议
https://www.qichacha.com/robots.txt
User-agent: **
Allow: /
Sitemap: https://www.qichacha.com/sitemap.xml
表示该网站允许任何爬虫任意爬取其内容
二、确定想要爬取的内容
想要爬取的内容为”批发与零售“大类下”批发业“中的各个企业的信息:包括企业名称、法定代表人、注册
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。