当前位置:   article > 正文

python爬取网页文本_手把手教你如何用Python爬取网站文本信息

用python爬取网站文本

提取网页源代码——Requests 工具包

在我们提取网络信息之前,我们必须将网页的源代码进行提取,Requests工具包现在可以说是最好用和最普及的静态网页爬虫工具,它是由大神Kenneth Reitz所搭建的。在Requests的官方介绍里,Requests所遵守的哲学理念是: 1.Beautiful is better than ugly. (美胜过丑)

2.Explicit is better than implicit.(清晰胜过隐匿)

3.Simple is better than complex.(简单胜过复杂)

4.Complex is better than complicated.(复杂胜过繁琐)

5.Readability counts.(可读性很重要)

Requests工具包的使用非常简单,最主要使用的函数为requests.get(url),其中参数url就是我们想提取源代码的网页,再通过requests.get(url).text将页面转换为字符串,就可以供我们使用了。

信息提取——Xpath

我们普通的网页一般都是XML文档格式,当我们想提取里面的内容时,我们需要借助Xpath来分解其中的格式,提取我们想要的内容。在了解Xpath之前我们需要知道四个基本概念:节点、元素、属性、文本 。我们来看一个例子:

<?xml version="1.0" encoding="ISO-8859-1"?>

Harry Potter

J K. Ro

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/838384
推荐阅读
相关标签
  

闽ICP备14008679号