赞
踩
提取网页源代码——Requests 工具包
在我们提取网络信息之前,我们必须将网页的源代码进行提取,Requests工具包现在可以说是最好用和最普及的静态网页爬虫工具,它是由大神Kenneth Reitz所搭建的。在Requests的官方介绍里,Requests所遵守的哲学理念是: 1.Beautiful is better than ugly. (美胜过丑)
2.Explicit is better than implicit.(清晰胜过隐匿)
3.Simple is better than complex.(简单胜过复杂)
4.Complex is better than complicated.(复杂胜过繁琐)
5.Readability counts.(可读性很重要)
Requests工具包的使用非常简单,最主要使用的函数为requests.get(url),其中参数url就是我们想提取源代码的网页,再通过requests.get(url).text将页面转换为字符串,就可以供我们使用了。
信息提取——Xpath
我们普通的网页一般都是XML文档格式,当我们想提取里面的内容时,我们需要借助Xpath来分解其中的格式,提取我们想要的内容。在了解Xpath之前我们需要知道四个基本概念:节点、元素、属性、文本 。我们来看一个例子:
<?xml version="1.0" encoding="ISO-8859-1"?>
Harry Potter
J K. Ro
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。