赞
踩
ANSI(American National Standards Institute—美国国家标准学会)
因为地区的不同,不同国家编码字符的标准也是不一样的,这就导致了GB2312、GBK、Big5、Shift_JIS 等各自的编码标准的产生。例如:在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。在英文Windows操作系统中,ANSI 编码代表 ASCII编码;
不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。
对于0x00~0x7F之间的ANSI字符,1个字节就代表1个字符。
总的来说ANSI码就是各个国家使用码的集合,在不同地方,不同操作系统,ANSI代表的码就不一样,且不能相互之间转换。
ASCII (American Standard Code for Information Interchange—美国信息交换标准代码)
产生原因:
因为计算机存储、运算数据都使用二进制,但是还有一些字符也需要二进制表示,所以为了不造成混乱美国有关的标准化组织就出台了ASCII编码。
表达方式:
ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
紧接上述的ANSI码,为了让不同国家的编码统一,统一码联盟组织创建了UNICODE编码。
Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以。
UTF-8(Unicode Transformation Format—可变长字符编码)
是一种针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部份修改后,便可继续使用。
通俗说就是简化版的unicode编码。
UCS-2(Universal Character Set coded in 2 octets)
是国际标准化组织iso开展的ISO/IEC 10646项目定义的编码。
UCS-2是固定长度为16位的unicode字符集。
UCS-2是用两个字节来表示代码点,
其取值范围为 U+0000~U+FFFF。
还有UCS-4,即用四个字节表示代码点。它的范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一样的。
代码点:字符
代码单元:字符集
UCS-2的优点:
对于亚洲字符的存储空间需求比UTF-8少,因为每个字符都是2个字节。
处理字符的速度比UTF-8更快,因为是固定长度编码的。
对于windows和java的支持更好。
注意:UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。规定存储方式的称为UTF(Unicode Transformation Format),其中应用较多的就是UTF-16和UTF-8了。
GBK(Guo-Biao Kuozhan—国家标准扩展码)
外文名(Chinese Internal Code Specification)
针对于unicode浪费空间的问题,西方人提出了utf-8(可变长字符串),但是utf-8存储一个中文需要三个字节,所以我们中国人也提出了自己的存储字节方式GBK,一个中文只需要两个字符。
gbk和utf-8两种编码之间转换要通过unicode来间接实现。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。