赞
踩
0|1第一部分 必答题
注意:第31题1分,其他题均每题3分。
1,了解哪些基于爬虫相关的模块?- 网络请求:urllib,requests,aiohttp
- 数据解析:re,xpath,bs4,pyquery
- selenium
- js逆向:pyexcJs
2,常见的数据解析方式?- re、lxml、bs4
3,列举在爬虫过程中遇到的哪些比较难的反爬机制?
- 动态加载的数据
- 动态变化的请求参数
- js加密
- 代理
- cookie
4,简述如何抓取动态加载数据?- 基于抓包工具进行全局搜索
- 如果动态加载的数据是密文,则全局搜索是搜索不到
5,移动端数据如何抓取?- fiddler,appnium,网络配置
6,抓取过哪些类型的数据,量级多少?- 电商,医疗器械,彩妆,新闻资讯,金融,体育赛事(参考hao123网站)
- 量级:
- 最好不要超过100w。自己计算(页数,一页显示多少数据)
7,了解哪些爬虫框架?- scrapy,pyspider
8,谈谈对scrapy的了解?- 功能:数据解析,持久化存储,深度爬取,分布式,关键件<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。