赞
踩
ANSI
Unicode big endian
UTF-8
对于0x00-0x7F字符则1个字节代表一个字符。这是ASNI编码与Unicode编码最大的区别。
使用0x80-0xFF范围的2个字节代表一个字符。用来各自文字的延伸。
不同国家和地区制定不同的标准,于是有了GB2312,BIG5,JIS等各自编码标准。
这种使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。
在简体中文系统下,ANSI 编码代表 GB2312 编码。
在日文操作系统下,ANSI 编码代表 JIS 编码。
PS:
ANSI编码下,当txt文档中一切字符都在 [C0,DF]、 [80,BF] 这个范围时,notepad都无法确认文档地格式。 而"联通"就是0xC1AACDA8,刚好在上面地范围内,所以不能正常显现。
UTF-LE8
UTF-LE16
UTF-LE32
UTF-BE8
UTF-BE16
UTF-BE32
big endian和little endian是CPU处理多字节数的不同方式。
例如“汉”字的Unicode编码是6C49。
那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?
将6C写在前面,就是big endian。
将49写在前面,就是little endian。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。