初次体验Python爬虫

作者：黑客灵魂 | 2024-08-06 23:26:03

踩

初次体验Python爬虫

多次听闻python的强大，在学习了python的基础后，想进一步把python运用到实际运用中去，于是，想学习一下python爬虫，以下就是一天我的学习收获

开始，如何认识敲一下简单代码爬取百度翻译结果

首先，设置一个想要爬取网站的url

接着就需要导入一个request模块，Python requests 是一个常用的 HTTP 请求库，可以方便地向网站发送 HTTP 请求，并获取响应结果

在百度翻译随便写个英文单词，然我们通过F12观察，在网络的HXR中，查到我们的请求方法为POST的请求

提示：XHR
XHR全称XMLHttpRequest

XMLHTTP是一组API函数集，可被JavaScript、JScript、VBScript以及其它web浏览器内嵌的脚本语言调用，通过HTTP在浏览器和web服务器之间收发XML或其它数据。XMLHTTP最大的好处在于可以动态地更新网页，它无需重新从服务器读取整个网页，也不需要安装额外的插件。该技术被许多网站使用，以实现快速响应的动态网页应用。例如：Google的Gmail服务、Google Suggest动态查找界面以及Google Map地理信息服务。

XMLHTTP是AJAX网页开发技术的重要组成部分。除XML之外，XMLHTTP还能用于获取其它格式的数据，如JSON或者甚至纯文本。

于是使用request调用post方法来获得请求响应的数据

但是，在此之前需要设置一下UA伪装，让我们的爬虫行为通过浏览器的UA检测

还有请求所需要的请求参数，请求参数可以通过f12查看

为可以动态的进行查询，我们可以设置一个input（），放入到请求参数中去

然后看到响应标头为

Content-Type:application/json

就得把响应结果转化为json格式的数据了

最后，在进行一个持久化的储存，说白了就是把它保存在一个文件里

运行结果为

看起来还不错，哈哈！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/黑客灵魂/article/detail/939783