赞
踩
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib
。
在 python2 中,urllib
被分为urllib,urllib2等
我们先来段代码:
# urllib_request.py
# 导入urllib.request 库
import urllib.request
# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen(“http://www.baidu.com”)
# 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()
# 打印字符串
print (html)
执行写的python代码,将打印结果
Power@PowerMac ~$: python urllib_request.py
实际上,如果我们在浏览器上打开百度主页, 右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是一模一样。也就是说,上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。
一个基本的url请求对应的python代码真的非常简单。
在我们第一个例子里,urlopen()的参数就是一个url地址;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。