赞
踩
问题描述
当使用requests爬取数据后,打印或者保存下来的数据出现了乱码问题,比如像下面这种情况
这种乱码的数据显然并不是我们需要的,所以我们需要将它转换成正常的中文数据
在对乱码处理的方法中,我们可以引入一个新的模块
cchardet
来帮助我们完成
首先需要安装一下
pip install cchardet
在对文本进行解码之前可以用cchardet先查看下文本的编码
可以很明显的看到requests对网页的编码判断和cchardet对网页的编码判断明显不一样,经过我的测试,cchardet给出的编码方式是正确的
最后在实际的使用方式,我们可以这样使用
- url = "http://www.fuxinmetal.com/aboutus.asp"
- response = requests.get(url)
- encoding_dict = cchardet.detect(response.content)
- response.encoding = encoding_dict["encoding"]
最后可以看看我的输出结果
可以看到中文都能正常显示出来了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。