当前位置:   article > 正文

【爬虫】一文了解如何处理爬虫中的乱码问题_spider解决英文乱码问题

spider解决英文乱码问题

本系列为自己学习爬虫的相关笔记,如有误,欢迎大家指正

什么是字符编码

字符串的编码只有两大类:

  1. 通用的Unicode编码
  2. 将Unicode转化成的某种类型的编码,如UTF-8、GBK等

了解Unicode编码之前,先来看计算机编程的历史。

由于计算机只能处理数字,因此处理文本时必须先转换为数字才行。最早的计算机在设计时采用8比特(bit)作为一个字节(byte),而计算机采用二进制,所以一个字节可以表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。

美国人发明了计算机,同时制定了编码,以对应英文字符和二进制数字之间的关系。这种编码被称为ASCII码。ASCII码一共规定了128个字符的编码,比如大写字母A是65、二进制为01000001。

这128个字符表示英文绰绰有余,但是中文有超过10万个汉字,一个字节只能表示256种符号,显然是不够的。所以,中国使用GB2312作为简体中文常见的编码方式,两个字节表示一个汉字,理论上最多可以表示256×256=65536个符号。

不同国家都设置了自己的编码,因此,在多语言的文本中可能会出现乱码。

为了让各国/地区能够跨语言、跨平台进行文本转换与处理,Unicode就被创造了出来。

Unicode被称为统一码、万国码或单一码。也就是说,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,大概包含100多万个符号。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/573249
推荐阅读
相关标签
  

闽ICP备14008679号