喵喵爱编程

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

Python 爬虫基础_python爬虫基础

作者：喵喵爱编程 | 2024-07-16 14:42:27

赞

踩

python爬虫基础

爬虫基础

一、基本概念

1、简介

1.1 概念

什么是爬虫？

爬虫就是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

爬虫的价值：

抓取互联网上面的大量的数据，可以将这些数据商业化和商品化

爬虫的合法性：

爬虫在法律上是不被禁止的
但是其具有违法风险
善意爬虫——百度······ / 恶意爬虫······

爬虫带来的风险具体体现：

爬虫干扰了被访问网站正常运营
- 时长优化自己的程序，避免干扰被访问网站的正常运行
爬虫抓取了受到法律保护的特点类型的数据或信息
- 在使用时，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户信息、商业机密等敏感信息需要及时停止爬取或传播

1.2 爬虫分类

爬虫在使用场景中的分类

通用爬虫：
- 搜索引擎抓取系统重要组成部分，抓取的是一整张页面的数据
聚焦爬虫：
- 其是建立在通用爬虫的基础之上，其抓取的是页面中特定的局部内容
增量式爬虫：
- 检测网站中数据更新情况，只会抓取网站中最新更新出来的数据

1.3 爬虫中的矛与盾

1.3.1 反爬机制

门户网站通过指定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取

1.3.2 反反爬策略

爬虫程序通过指定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站数据

1.3.3 robots 协议

君子协议，规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取

1.4 网络协议

1.4.1 http 协议

概念：

就是服务器和客户端进行数据交互的一种形式

常用请求头信息：

User-Agent：当前请求载体的身份标识
Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息：

Content-Type：服务器响应会客户端的数据类型

1.4.2 https 协议

概念：

安全的超文本传输协议，传输过程中进行了数据的加密

加密方式&#x

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号