当前位置:   article > 正文

Windows下txt文件的字符编码

Windows下txt文件的字符编码

在Windows操作系统下保存txt文件,可选编码有:

ANSI

Unicode

Unicode big endian

UTF-8

 

ANSI

对于0x00-0x7F字符则1个字节代表一个字符。这是ASNI编码与Unicode编码最大的区别。

使用0x80-0xFF范围的2个字节代表一个字符。用来各自文字的延伸。

不同国家和地区制定不同的标准,于是有了GB2312,BIG5,JIS等各自编码标准。

这种使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。

在简体中文系统下,ANSI 编码代表 GB2312 编码。

在日文操作系统下,ANSI 编码代表 JIS 编码。

 

PS:

ANSI编码下,当txt文档中一切字符都在 [C0,DF]、 [80,BF] 这个范围时,notepad都无法确认文档地格式。 而"联通"就是0xC1AACDA8,刚好在上面地范围内,所以不能正常显现。

 

Unicode(统一码、万国码、单一码)

UTF-LE8

UTF-LE16

UTF-LE32

 

Unicode big endian

UTF-BE8

UTF-BE16

UTF-BE32

 

big endian和little endian是CPU处理多字节数的不同方式。

例如“汉”字的Unicode编码是6C49。

那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?

将6C写在前面,就是big endian。

将49写在前面,就是little endian。

 

UTF-8

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/373626
推荐阅读
相关标签
  

闽ICP备14008679号