当前位置:   article > 正文

python爬虫入门_python爬虫csdn

python爬虫csdn

一、首先需要了解爬虫的原理

        爬虫就是一个自动化数据采集工作,你只需要告诉它需要采取哪些数据,给它一个url,就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求,然后目标服务器返回响应结果,爬虫客户端收到响应并从中提取数据,再进行数据清洗、数据存储工作。

二、爬虫的基本流程

       爬虫的基本流程与访问浏览器类似,就是建立一个http请求,当用户输入一个url之后,点击确认,客户端会与服务器建立连接,服务器收到请求之后,会从数据库中拿到响应的数据并且封装为一个http响应,将响应的结果返回给浏览器,浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。

三、爬虫的场景分类

       1、通用爬虫:抓取系统的重要组成部分,抓取的是一整个页面,这种爬虫的方式相对简单,只需要四个步骤,指定url、发送请求、获取数据、持久化存储。

  1. # 1、指定url
  2. request_url = url
  3. # 2、发送请求
  4. responce = requests.get(url = request_url)
  5. # 3、获取数据
  6. responce_data = responce.text
  7. # 4、持久化存储
  8. with open('./sogou.html','w',encoding='utf-8') as fp:
  9. fp.write(responce_data)
  10. print("爬虫结束")

       2、聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中的特定的局部页面。需要五个步骤,步骤与通用爬虫类似,只是在获取数据之后,需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、html.parser。(3)、beautifulsoup。(4)、lxml。

小结

这篇文章主要对爬虫入门进行介绍,我也是一个刚接触爬虫不久的小白,我希望和大家一起学习进步,之后我会将我学习路线和内容慢慢更新发表出来。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/885250
推荐阅读
相关标签
  

闽ICP备14008679号