赞
踩
讲二者区别之前首先要明白什么是GBK,什么又是Unicode,他们是怎么表示的?
GBK和Unicode都是码表,码表的作用就是将一个个的字符与数字对应起来,比如英文字母a所对应的数值是97。
除了这两个常见的码表外,最常见的还有ASCII表,GBK主要用来对汉字和英文字母编码,Unicode不仅可以对汉字编码,还可以对其他语言进行编码,是一个大一统的编码表。从字符编码的范围上讲ASCII < GBK < Unicode
现在我们有了码表,也就知道了每个字符(中文字符,英文字符,其他字符)的二进制代码,但却没有规定这个二进制代码应该如何存储。对于GBK和ASCII等二进制长度固定的码表来说,存储是比较容易的,ASCII中每个字符用一个字节存储,GBK每个英文字符用一个字节存储,每个汉字符用两个字节存储。但是对于Unicode来说,因为它包含了很多字符,所以二进制长度是不固定的,比如一个英文字母一个字节就可以存储下,但是对于汉字或其他语言的字符,需要多个字节才能完整存储。如果统一取最长的字节数,比如英文字符也用三个字节来存储,那显然太浪费空间了,
为了存储Unicode
规定的码表,人们发明了utf-8
和utf-16
,这是两种不同的实现方式,使用变长方式来存储Unicode
编码,生活中比较常用的是utf-8
。
utf-8
存储方式下,英文字符占1个字节,中文字符占3个字节。
计算机中所有的数据都是以二进制形式存储的,但我们直接看二进制是看不懂的,所以要借助decoder和encoder来完成字符与二进制数据之间的转换。
encoder:编码,将我们能看懂的字符转换为二进制
decoder:解码,将二进制转化为我们能看懂的字符串
str = "中国yyds"
# 将str转换为Unicode编码格式下的二进制
utf_str = str.encode('utf-8') # 输出结果为b'\xe4\xb8\xad\xe5\x9b\xbdyyds'
# 将str转换为gbk编码格式下的二进制
gbk_str = str.encode('gbk') # 输出结果为b'\xd6\xd0\xb9\xfayyds'
print(utf_str)
print(gbk_str)
# 根据编码方式进行解码
print(utf_str.decode('utf-8')) # 输出结果为中国yyds
print(gbk_str.decode('gbk')) # 输出结果为中国yyds
从上面的例子可以看出,gbk
编码下汉字占两个字节,utf-8
编码下汉字占三个字节。
我们用python打开一个文件或向文件中写数据时,一定要指定对应的encoder编码集,如:
with open(source_name, 'r', encoding='utf8') as fp:
# do something
为什么打开文件时需要指定encoding
编码格式呢?是因为如果没有指定,会使用系统默认的编码格式,mac 和 linux 使用的是utf-8,而 windows 使用的是 GBK
。
这个博主讲的很详细
https://blog.csdn.net/qq_37859539/article/details/79857476
https://www.cnblogs.com/tsingke/p/10853936.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。