当前位置:   article > 正文

python第三方库urllib库的使用实例之网页抓取_编写代码,用urllib库实现抓取百度搜索“python”关键字的页面提交爬取的目标

编写代码,用urllib库实现抓取百度搜索“python”关键字的页面提交爬取的目标

urllib库的基本使用

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib

在 python2 中,urllib 被分为urllib,urllib2等

urlopen

我们先来段代码:

# urllib_request.py
  • 1

# 导入urllib.request 库
import urllib.request

# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen(http://www.baidu.com)

# 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()

# 打印字符串
print (html)

执行写的python代码,将打印结果

Power@PowerMac ~$: python urllib_request.py
  • 1

实际上,如果我们在浏览器上打开百度主页, 右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是一模一样。也就是说,上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。

一个基本的url请求对应的python代码真的非常简单。

Request

在我们第一个例子里,urlopen()的参数就是一个url地址;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/591308
推荐阅读
相关标签
  

闽ICP备14008679号