当前位置:   article > 正文

python爬虫面试真题及答案_Python面试题爬虫篇(附答案)

python scrapy面试题

0|1第一部分 必答题

注意:第31题1分,其他题均每题3分。

1,了解哪些基于爬虫相关的模块?- 网络请求:urllib,requests,aiohttp

- 数据解析:re,xpath,bs4,pyquery

- selenium

- js逆向:pyexcJs

2,常见的数据解析方式?- re、lxml、bs4

3,列举在爬虫过程中遇到的哪些比较难的反爬机制?

- 动态加载的数据

- 动态变化的请求参数

- js加密

- 代理

- cookie

4,简述如何抓取动态加载数据?- 基于抓包工具进行全局搜索

- 如果动态加载的数据是密文,则全局搜索是搜索不到

5,移动端数据如何抓取?- fiddler,appnium,网络配置

6,抓取过哪些类型的数据,量级多少?- 电商,医疗器械,彩妆,新闻资讯,金融,体育赛事(参考hao123网站)

- 量级:

- 最好不要超过100w。自己计算(页数,一页显示多少数据)

7,了解哪些爬虫框架?- scrapy,pyspider

8,谈谈对scrapy的了解?- 功能:数据解析,持久化存储,深度爬取,分布式,关键件<

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/1006799
推荐阅读
相关标签
  

闽ICP备14008679号