赞
踩
其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。
- 文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体
- 文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示
文本在计算机中的处理过程是:
( 1)西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成(2) ASCII 码:美国信息交换标准码①、ASCII 字符集包含 96 个可打印字符和 32 个控制字符, 一共能表示 128 个字符②、 采用 7 个二进位进行编码,是高位位置用 0 表示,共一个字节 8 位。③、 计算机中使用 1 个字节存储 1 个 ASCII 字符,单字节表示。④、常用字符的 ASCII 码: 0=48;A=65;a=97;a-A=32D=20H。 (D 为十进制,H 为十六进制数)⑤、 大写字母可以通过加 32D 得到对应的小写字母。A+32=97=a。( D 为十进制,H 为十六进制数)⑥、 小写字母可以通过减 32D 得到对应的大写字母。a-32=65=A。 (D 为十进制,H 为十六进制数)⑦、ASCII 码值排序:符号(()+-*/等)< 数字(0~9) < 符号(:;<=>?) < 大写字母(A~Z) < 小写字母(a~z)
存在问题:
- 字符集太小(只有128个字符)
- 不同国家和地区使用不同的字符集及其编码,互不兼容
- 东亚地区使用的大字符集无法编码
(1)国家标准:GB2312-1980( GB2312-80):简体中文为主。( 2)汉字扩充规范:GBK:支持繁体中文。( 3)UCS/Unicode 多文种大字符集也包含汉字:UTF-8,UTF-16:多种文字符号,支持简繁中文。( 4)国家标准 GB18030-2005:繁简体中文,与 UCS/Unicode 编码标准接轨。( 5)港澳台使用的汉字编码字符集 CNS 11643(BIG 5 ,“大五码”):繁体中文
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容。
GB18030实质上是UCS/Unicode字符集的另一种编码方案:
- 单字节编码(128个)表示ASCII字符
- 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用
- 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。