赞
踩
大家好,本文将围绕python 爬取网页内容并保存到数据库展开说明,利用python爬取简单网页数据步骤是一个很多人都想弄明白的事情,想搞清楚python爬取下载链接的文件需要先了解以下几个事情。
最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件。对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法python好玩的代码。
一、用Python抓取网页
基本方法:
- import urllib2,urllib
-
- url = 'http://www.baidu.com'
- req = urllib2.Request(url)
- content = urllib2.urlopen(req).read()
1)、url为网址,需要加'http://'
2)、content为网页的html源码
问题:
1、网站禁止爬虫,不能抓取或者抓取一定数量后封ip
解决:伪装成浏览器进行抓取,加入headers:
- import urllib2,urllib
-
- headers = { #伪装为浏览器抓取
- 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
- }
-
- req = urllib2.Request(url,headers=headers)
- content = urllib2.urlopen(req).read()
更复杂的情况(需要登录,多线程抓取)可参考:
用python爬虫抓站的一些技巧总结 zz [Python 俱乐部],很不错的教程
2、抓取网页中的中文为乱码问题
解决:用BeautifulSoup解析网页(BeautifulSoup是Python的一个用于解析网页的插件,其安装及使用方法下文会单独讨论)
首先需要介绍一下网页中的中文编码方式,一般网页的编码会在<meta>标签中标出,目前有三种,分别是GB2312,GBK,GB18030,三种编码是兼容的,
从包含的中文字符个数比较:GB2312 < GBK < GB18030,因此如果网页标称的编码为GB2312,但是实际上用到了GBK或者GB18030的中文字符,那么编码工具就会解析错误,导致编码退回到最基本的windows-2152了。所以解决此类问题分两种情况。
1)、若网页的实际的中文编码和其标出的相符的话,即没有字符超出所标称的编码,下面即可解决
- import urllib,urllib2,bs4
-
- req = urllib2.Request(url)
- content = urllib2.urlopen(req).read()
- content = bs4.BeautifulSoup(content)
- return content
- import urllib,urllib2,bs4
-
- req = urllib2.Request(url)
- content = urllib2.urlopen(req).read()
- content = bs4.BeautifulSoup(content,from_encoding='GB18030')
- return content
详细的中文乱码问题分析参见:
http://againinput4.blog.163.com/blog/static/1727994912011111011432810/
二、用Python下载文件
使用Python下载文件的方法有很多,在此只介绍最简单的一种
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。