赞
踩
目录
HTTP请求:使用HTTP请求可以向目标网站发送请求并获取网站返回的内容。常用的请求方式包括GET和POST请求。
HTML解析:使用HTML解析技术可以将网站返回的HTML文档解析成Python对象,方便程序对网站内容进行处理和分析。常用的Python库包括BeautifulSoup和lxml等。
JSON:JSON是一种轻量级数据交换格式,常用于数据传输和存储。在爬虫中,我们经常会使用JSON格式来处理网站返回的数据。
异步加载:有些网站采用异步加载技术来显示内容,这种情况下我们需要使用Selenium等工具来模拟浏览器行为,才能够获取到完整的数据。
python爬虫实例——百度翻译(requests案例详解)
3.我们根据相应的类型(text/Json),获取到网页信息
现如今,Python在世界编程语言排行榜中排名第一的编程语言,它的语法简单易学,适合初学者入门,同时也具有强大的功能和广泛的应用,可以用于Web开发、数据分析、人工智能、网络爬虫等多个领域。
而爬虫,无疑也是学计算机的需要掌握的技能。因为,大数据时代,在做数据分析或数据挖掘时,首先要有大量的数据。而爬虫,无疑是采集数据很方便的方式。
从今天起,会专门写一个专栏,用来介绍一些Python爬虫实例,希望能帮到各位,记得三连哦,有任何问题请留言,看到会及时回复。
常用的爬虫会用requests来爬取,至于python的基础知识,文章中会简单带过,如果还没有基础的小伙伴,最好是将Python的基础知识熟悉一下,再来看爬虫系列的文章。
我们通过输入想要翻译的内容,将翻译的结果(如下图)提取出来
我们在输入词语的时候,我们会发现百度翻译结果随之就加载出来了,不像有些网页在浏览器搜索后点回车才显示结果。这里我们就简单的介绍一下--网页中ajax异步加载技术
传统的Web应用中,页面的渲染和数据的加载是通过同步的方式来完成的,即浏览器发送请求,服务器返回响应,浏览器解析响应并渲染页面。
在现代Web应用中,为了提高用户体验和性能,很多网站采用了异步加载技术,也称为Ajax技术。使用Ajax技术可以部分地更新页面,而不需要重新加载整个页面。这种技术可以使网站更加动态和快速,同时也可以减少服务器的负载。
在使用Ajax技术时,浏览器会使用JavaScript向服务器发送请求,并在收到响应后,使用JavaScript来更新局部页面。在这个过程中,用户不需要离开当前页面,也不需要等待整个页面重新加载。常用的JavaScript库包括jQuery和React等。
因为ajax异步加载,我们不能再像以前一样查看数据了(如下图),我们不再是查看network(网络)下面的全部数据,我们选择network(网络)/XMLHttpRequest(xhr)标签页下的数据,这是我们想要的浏览器返回结果。
(以前要查看的数据)
(现在要看的数据)
我们通过查看XMLHttpRequest(xhr)预览选项发现,v2tranapi文件下的数据是我们想要的,因此我们xhr-v2tranapi--表头进入,查找我们想要的数据
F12获取页面请求的返回信息(如下图)可知,百度翻译的请求类型是post类型,并且我们获取到了网页的URL:
当请求类型是GET请求时,只需要请求URL就可以发请求了,但如果是POST 请求还需要请求参数:
通过上一步骤我们获取到了URL、data、请求类型为post,以及获取到的headers,便可书写如下代码:
根据网页的响应信息,可以看出它是json类型的数据,我们需要先导入JSON,然后通过JSON获取网页的内容。
这里不能直接把返回值打印出来,需要转化为json格式的数据,否则会报错
这是我们这个练习的完整代码,大家可以试着运行一下。
我们会发现使用requests模块,我们需要:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。