当前位置:   article > 正文

【python爬虫实例】爬取百度翻译,有源码_爬虫内容翻译

爬虫内容翻译

   

目录

        爬虫常用的知识点包括:

HTTP请求:使用HTTP请求可以向目标网站发送请求并获取网站返回的内容。常用的请求方式包括GET和POST请求。

HTML解析:使用HTML解析技术可以将网站返回的HTML文档解析成Python对象,方便程序对网站内容进行处理和分析。常用的Python库包括BeautifulSoup和lxml等。

JSON:JSON是一种轻量级数据交换格式,常用于数据传输和存储。在爬虫中,我们经常会使用JSON格式来处理网站返回的数据。

异步加载:有些网站采用异步加载技术来显示内容,这种情况下我们需要使用Selenium等工具来模拟浏览器行为,才能够获取到完整的数据。

python爬虫实例——百度翻译(requests案例详解)

 一、百度翻译网页中需要爬取的内容

二、爬取步骤解析

分析页面

ajax异步加载是什么?

返回结果的查看方式发生变化

三、开始写代码

 1.导入requests模块

2.获取请求类型以及网址信息

请求头request headers,用于反爬:

  3.书写代码

4.分析网页的响应信息 

5.保存网页信息

1.判断请求类型(post/get)

2.根据类型选择参数,

3.我们根据相应的类型(text/Json),获取到网页信息

4.保存数据信息即可。


    

         现如今,Python在世界编程语言排行榜中排名第一的编程语言,它的语法简单易学,适合初学者入门,同时也具有强大的功能和广泛的应用,可以用于Web开发、数据分析、人工智能、网络爬虫等多个领域。

        而爬虫,无疑也是学计算机的需要掌握的技能。因为,大数据时代,在做数据分析或数据挖掘时,首先要有大量的数据。而爬虫,无疑是采集数据很方便的方式。

        从今天起,会专门写一个专栏,用来介绍一些Python爬虫实例,希望能帮到各位,记得三连哦,有任何问题请留言,看到会及时回复。


        爬虫常用的知识点包括:

  • HTTP请求:使用HTTP请求可以向目标网站发送请求并获取网站返回的内容。常用的请求方式包括GET和POST请求。

  • HTML解析:使用HTML解析技术可以将网站返回的HTML文档解析成Python对象,方便程序对网站内容进行处理和分析。常用的Python库包括BeautifulSoup和lxml等。

  • JSON:JSON是一种轻量级数据交换格式,常用于数据传输和存储。在爬虫中,我们经常会使用JSON格式来处理网站返回的数据。

  • 异步加载:有些网站采用异步加载技术来显示内容,这种情况下我们需要使用Selenium等工具来模拟浏览器行为,才能够获取到完整的数据。

常用的爬虫会用requests来爬取,至于python的基础知识,文章中会简单带过,如果还没有基础的小伙伴,最好是将Python的基础知识熟悉一下,再来看爬虫系列的文章。


python爬虫实例——百度翻译(requests案例详解)

 一、百度翻译网页中需要爬取的内容

 我们通过输入想要翻译的内容,将翻译的结果(如下图)提取出来

二、爬取步骤解析

分析页面

ajax异步加载是什么?

我们在输入词语的时候,我们会发现百度翻译结果随之就加载出来了,不像有些网页在浏览器搜索后点回车才显示结果。这里我们就简单的介绍一下--网页中ajax异步加载技术

传统的Web应用中,页面的渲染和数据的加载是通过同步的方式来完成的,即浏览器发送请求,服务器返回响应,浏览器解析响应并渲染页面。

在现代Web应用中,为了提高用户体验和性能,很多网站采用了异步加载技术,也称为Ajax技术。使用Ajax技术可以部分地更新页面,而不需要重新加载整个页面。这种技术可以使网站更加动态和快速,同时也可以减少服务器的负载。

在使用Ajax技术时,浏览器会使用JavaScript向服务器发送请求,并在收到响应后,使用JavaScript来更新局部页面。在这个过程中,用户不需要离开当前页面,也不需要等待整个页面重新加载。常用的JavaScript库包括jQuery和React等。

返回结果的查看方式发生变化

因为ajax异步加载,我们不能再像以前一样查看数据了(如下图),我们不再是查看network(网络)下面的全部数据,我们选择network(网络)/XMLHttpRequest(xhr)标签页下的数据,这是我们想要的浏览器返回结果。

(以前要查看的数据)

 (现在要看的数据)

我们通过查看XMLHttpRequest(xhr)预览选项发现,v2tranapi文件下的数据是我们想要的,因此我们xhr-v2tranapi--表头进入,查找我们想要的数据

三、开始写代码

 1.导入requests模块

2.获取请求类型以及网址信息

F12获取页面请求的返回信息(如下图)可知,百度翻译的请求类型是post类型,并且我们获取到了网页的URL:

 当请求类型是GET请求时,只需要请求URL就可以发请求了,但如果是POST 请求还需要请求参数:

请求头request headers,用于反爬:

  3.书写代码

通过上一步骤我们获取到了URL、data、请求类型为post,以及获取到的headers,便可书写如下代码:

4.分析网页的响应信息 

根据网页的响应信息,可以看出它是json类型的数据,我们需要先导入JSON,然后通过JSON获取网页的内容。

 

这里不能直接把返回值打印出来,需要转化为json格式的数据,否则会报错

5.保存网页信息

这是我们这个练习的完整代码,大家可以试着运行一下。

我们会发现使用requests模块,我们需要:

1.判断请求类型(post/get)

2.根据类型选择参数,

3.我们根据相应的类型(text/Json),获取到网页信息

4.保存数据信息即可。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/352926
推荐阅读
相关标签
  

闽ICP备14008679号