当前位置:   article > 正文

python爬虫编码问题_python爬取网页数据将文本转码

python爬取网页数据将文本转码

问题描述

当使用requests爬取数据后,打印或者保存下来的数据出现了乱码问题,比如像下面这种情况

 

 

这种乱码的数据显然并不是我们需要的,所以我们需要将它转换成正常的中文数据


解决方案:

在对乱码处理的方法中,我们可以引入一个新的模块cchardet来帮助我们完成

首先需要安装一下

pip install cchardet

在对文本进行解码之前可以用cchardet先查看下文本的编码

 

 可以很明显的看到requests对网页的编码判断和cchardet对网页的编码判断明显不一样,经过我的测试,cchardet给出的编码方式是正确的

最后在实际的使用方式,我们可以这样使用

  1. url = "http://www.fuxinmetal.com/aboutus.asp"
  2. response = requests.get(url)
  3. encoding_dict = cchardet.detect(response.content)
  4. response.encoding = encoding_dict["encoding"]

 最后可以看看我的输出结果

 

 可以看到中文都能正常显示出来了

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号