python爬虫面试真题及答案_Python面试题爬虫篇(附答案)

作者：IT小白 | 2024-08-20 11:06:47

踩

python scrapy面试题

0|1第一部分必答题

注意：第31题1分，其他题均每题3分。

1，了解哪些基于爬虫相关的模块？- 网络请求：urllib，requests，aiohttp

- 数据解析：re，xpath，bs4，pyquery

- selenium

- js逆向：pyexcJs

2，常见的数据解析方式？- re、lxml、bs4

3，列举在爬虫过程中遇到的哪些比较难的反爬机制？

- 动态加载的数据

- 动态变化的请求参数

- js加密

- 代理

- cookie

4，简述如何抓取动态加载数据？- 基于抓包工具进行全局搜索

- 如果动态加载的数据是密文，则全局搜索是搜索不到

5，移动端数据如何抓取？- fiddler，appnium，网络配置

6，抓取过哪些类型的数据，量级多少？- 电商，医疗器械，彩妆，新闻资讯，金融，体育赛事(参考hao123网站)

- 量级：

- 最好不要超过100w。自己计算(页数，一页显示多少数据)

7，了解哪些爬虫框架？- scrapy，pyspider

8，谈谈对scrapy的了解？- 功能：数据解析，持久化存储，深度爬取，分布式，关键件<

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/1006799