python爬取下载链接的文件,python爬取网页详细教程

作者：花生_TL007 | 2024-04-12 05:49:27

踩

python爬取下载链接的文件

大家好，本文将围绕python 爬取网页内容并保存到数据库展开说明，利用python爬取简单网页数据步骤是一个很多人都想弄明白的事情，想搞清楚python爬取下载链接的文件需要先了解以下几个事情。

最近两周都在学习Python抓取网页方法，任务是批量下载网站上的文件。对于一个刚刚入门python的人来说，在很多细节上都有需要注意的地方，以下就分享一下我在初学python过程中遇到的问题及解决方法python好玩的代码。

一、用Python抓取网页

基本方法：


import urllib2,urllib
 
url = 'http://www.baidu.com'
req = urllib2.Request(url)
content = urllib2.urlopen(req).read()

1)、url为网址，需要加'http://'

2)、content为网页的html源码

问题：

1、网站禁止爬虫，不能抓取或者抓取一定数量后封ip

解决：伪装成浏览器进行抓取，加入headers：


import urllib2,urllib
 
headers = {	#伪装为浏览器抓取
    	'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
	}
 
req = urllib2.Request(url,headers=headers)
content = urllib2.urlopen(req).read()

更复杂的情况（需要登录，多线程抓取）可参考：用python爬虫抓站的一些技巧总结 zz [Python 俱乐部]，很不错的教程

2、抓取网页中的中文为乱码问题

解决：用BeautifulSoup解析网页（BeautifulSoup是Python的一个用于解析网页的插件，其安装及使用方法下文会单独讨论）

首先需要介绍一下网页中的中文编码方式，一般网页的编码会在<meta>标签中标出，目前有三种，分别是GB2312，GBK，GB18030，三种编码是兼容的，

从包含的中文字符个数比较：GB2312 < GBK < GB18030，因此如果网页标称的编码为GB2312，但是实际上用到了GBK或者GB18030的中文字符，那么编码工具就会解析错误，导致编码退回到最基本的windows-2152了。所以解决此类问题分两种情况。

1)、若网页的实际的中文编码和其标出的相符的话，即没有字符超出所标称的编码，下面即可解决


import urllib,urllib2,bs4
	
req = urllib2.Request(url)
content = urllib2.urlopen(req).read()
content = bs4.BeautifulSoup(content)
return content

2)、若网页中的中文字符超出所标称的编码时，需要在BeautifulSoup中传递参数from_encoding，设置为最大的编码字符集GB18030即可


import urllib,urllib2,bs4
	
req = urllib2.Request(url)
content = urllib2.urlopen(req).read()
content = bs4.BeautifulSoup(content,from_encoding='GB18030')
return content

详细的中文乱码问题分析参见： http://againinput4.blog.163.com/blog/static/1727994912011111011432810/

二、用Python下载文件

使用Python下载文件的方法有很多，在此只介绍最简单的一种

文章知识点与官方知识档案匹配，可进一步学习相关知识

Python入门技能树人工智能机器学习工具包Scikit-learn410192 人正在系统学习中

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/409419