当前位置:   article > 正文

【C语言】多字节字符、宽字符(涉及字符集和编码)

【C语言】多字节字符、宽字符(涉及字符集和编码)

字符集、编码:

字符集:一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。例如:ASCII、Unicode、GB2312、GBK、GB18030、BIG5(繁体中文) ...

编码方式:符号集合与数字系统之间的对应关系,是信息处理的一项基本技术,将符号转换为计算机可以接受的二进制数值。例如:ASCII、UTF-8、UTF-16、UTF-32、GB2312、GBK、GB18030 ...

① ASCII:编码范围0x00-0x7F(即0-127),只用7位二进制就表示所有英文字符(128个字符)。ASCII是单字节编码,一个字符占1个字节。

② Unicode字符集:称为统一码、万国码、国际码。编码范围0x0000-0x10FFFF,包括100多万个字符。每个字符都有一个二进制数值(码值、码点),例如:字符"A"的码点为"0x0041",字符"中"的码点为"0x4E2D"。

Unicode字符集有3种存储方式:UTF-8,UTF-16,UTF-32。

  • UTF-8 编码:广泛使用的编码方式。可变长度编码规则,一个字符1-4个字节,不同字符占用字节数不同。前128个字符(ASCII),一个字符占1个字节。一个汉字一般占用3个字节。UTF-8不需要BOM来表明字节顺序,但可以表明编码方式。
  • UTF-16 编码:对应UCS-2(Universal Character Set coded in 2 octets),一个字符占2个字节,范围为 U+0000~U+FFFF。需要识别字节顺序(大端或小端)。需要BOM(Byte Order Mark, 放在文档开头告诉阅读器该文档的字节序)。
  • UTF-32 编码:对应UCS-4,一个字符占4个字节,范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2一样。需要BOM(Byte Order Mark)。

③ GB2312:中国国家标准简体中文字符集,专门用于汉字处理、汉字通信信息交换等。GB2312是对ASCll码的扩展,一个汉字占用两个字节。只有6000多个汉字。

GBK:《汉字内码扩展规范》,GB2312的扩展,有2万多个码值。一个汉字占用两个字节。一般看到936就知道是GBK。

GB18030:国家标准GB 18030-2005《信息技术中文编码字符集》,中国最新的内码字集。与GB 2312完全兼容,与GBK基本兼容,支持Unicode的全部统一汉字。是变长编码方式,可以是1个字节、2个字节和4个字节。

UTF-8编码格式

字节

十六进制

格式

实际编码位

码点范围

1字节

0x0000-0x007F

0xxxxxxx

7

0 ~ 127

2字节

0x0080-0x07FF

110xxxxx 10xxxxxx

11

128 ~ 2047

3字节

0x0800-0xFFFF

1110xxxx 10xxxxxx 10xxxxxx

16

2048 ~ 65535

4字节

0x010000-0x10FFFF

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

21

65536 ~ 2097151

补充:字节顺序(Byte Order)是计算机存储和表示多字节数据的方式,包括大端模式(Big Endian)和小端模式(Little Endian)。

  • Big Endian(大端模式):多字节数据中,高位字节(左边的位)存储在内存的低地址,低位字节(右边的位)存储在内存的高地址。
  • Little Endian(小端模式):多字节数据中,高位字节存储在内存的高地址,低位字节存储在内存的低地址。

Unicode 规范定义,每个文件开头加入表示编码顺序的字符: "零宽度非换行空格"(zero width no-break space),若是FE FF,则采用大端模式;若是FF FE,则采用小端模式。

一、多字节字符

C语言中基本数据类型之一的char类型(字符),一个英文字符占用一个字节,char * 表示的字符串中也是一个英文字符占用一个字节,包括结尾符'\0'(空字符)也只占用一个字节。

但其它语言的字符就不能只用一个字节表示了,例如:汉字,仅常用汉字就有3500多个,加上生僻汉字超过10万多个。而且汉字复杂,一个汉字可能2个字节、3个字节等。若一个字符占用多个字节,称为多字节字符。多字节字符也用char类型表示。

但用char类型即用多字节字符表示中文时可能出现乱码

C文件默认的编码方式一般是UTF-8(一个英文字符占1个字节, 一个汉字通常占3个字节)。而Windows编码方式一般是GBK,则中文在处理时可能出现乱码。

Windows(GBK编码)下若避免中文乱码,方法如下:

① 可在编译时使用GBK编码(与Windows编码方式一致): -fexec-charset=GBK。

(TERMINAL终端)

编译链接:gcc -fexec-charset=GBK -o 目标名 C程序文件名

再运行可执行文件:./目标名 

注:-finput-charset 指定C文件中的文字编码格式,-fexec-charset 指定编译之后的可执行文件的文字编码格式。默认情况下,gcc编译器认为编译前后的文字编码格式都是UTF-8。

  1. // utf8.c
  2. #include <stdio.h>
  3. #include <locale.h>
  4. int main(void)
  5. {
  6. printf("你好\n");
  7. char *s1 = "你好";
  8. printf("%s\n", s1);
  9. }
  10. // TERMINAL 输入:
  11. gcc -fexec-charset=GBK -o utf8 utf8.c
  12. ./utf8
  13. // 结果:
  14. 你好
  15. 你好

 ② 使用头文件windows.h中的SetConsoleOutputCP设置成UTF-8 (使控制台输出UTF-8编码的字符)。

 注意:windows.h中的 SetConsoleOutputCP 和 locale中的setlocale 虽然设置效果不同,据说可以同时使用,但可能会使宽字符无法输出。需正确设置,并注意各自的影响效果。

  1. #include <windows.h>
  2. SetConsoleOutputCP(65001);
  3. 或者 SetConsoleOutputCP(CP_UTF8);
  1. #include <stdio.h>
  2. #include <locale.h>
  3. #include <windows.h>
  4. int main(void)
  5. {
  6. SetConsoleOutputCP(65001); // 或者 SetConsoleOutputCP(CP_UTF8);
  7. printf("你好\n");
  8. char *s1 = "你好";
  9. printf("%s\n", s1);
  10. }
  11. // 结果:
  12. 你好
  13. 你好

二、宽字符类型

C语言提供了宽字符,每个宽字符都是固定字节数,例如Windows中每个宽字符都是占2个字节,包括结尾符'\0'也是占两个字节。

宽字符用wchar_t类型表示。wchar_t的内存大小由编译器决定。Windows的编译器使用UTF-16编码方式,wchar_t的内存大小为2字节。大多数Linux使用UTF-32编码方式,wchar_t的内存大小大多为4字节。有了wchar_t就可以存储中文。

标准库limits.h中宏MB_LEN_MAX可查看多字节字符中的最大字节数标准库stdlib.h中宏MB_CUR_MAX查看当前字符集中单个字符的最大字节数(不得大于MB_LEN_MAX)。

  1. #include <stdio.h>
  2. #include <limits.h>
  3. #include <stdlib.h>
  4. int main(void)
  5. {
  6. printf("wchar_t = %d bytes\n", sizeof(wchar_t));
  7. printf("MB_LEN_MAX: %d\n", MB_LEN_MAX);
  8. printf("MB_CUR_MAX: %d\n", MB_CUR_MAX);
  9. }
  10. // 结果:
  11. wchar_t = 2 bytes
  12. MB_LEN_MAX: 5
  13. MB_CUR_MAX: 1

1、设置本地语言环境

若想要使用宽字符类型,需设置当前语言环境,确保系统和编译器支持。只有正确设置语言环境,才能正确处理数据,否则可能出现乱码。

可使用标准库locale.h中的setlocale函数设置当前语言环境。

setlocale:    char  *setlocale(itn category, const  char  *locale)

参数category:已命名的常量,指定设置影响的函数类型。

参数locale:切换到中文环境:Linux:"zh_CN.UTF-8"。Windows:"chs"或""。若locale为空,则根据环境变量值来设置,将程序环境切换为本地化环境。

返回:一个对应于区域设置的不透明的字符串。如果请求无效,则返回值是 NULL。

注意:Windows的locale不支持“UTF-8”,可使用GBK,即"chs"(Chinese_People's Republic of China.936)。最好locale使用空字符,切换到本地环境。

setlocale函数的参数category
LC_ALL包括下面的所有选项。
LC_COLLATE字符串比较。影响<string.h> strcoll 和 strxfrm 函数
LC_CTYPE字符分类和转换。影响所有字符函数
LC_MONETARY货币格式,针对 localeconv()。
LC_NUMERIC小数点分隔符,针对 localeconv()。
LC_TIME日期和时间格式,针对<time.h> strftime()。
LC_MESSAGES系统响应。
  1. #include <stdio.h>
  2. #include <locale.h>
  3. #include <limits.h>
  4. #include <stdlib.h>
  5. int main(void)
  6. {
  7. setlocale(LC_ALL, ""); // 设为本地化环境(Windows)
  8. printf("After: wchar_t = %d bytes\n", sizeof(wchar_t)); // wchar_t类型占用字节数
  9. printf("After: MB_LEN_MAX: %d\n", MB_LEN_MAX); // 多字节字符最大字节数
  10. printf("After: MB_CUR_MAX: %d\n", MB_CUR_MAX); // 当前字符集单个字符的最大字节数
  11. wchar_t *s = L"你好";
  12. printf("%ls\n", s);
  13. return 0;
  14. }
  15. // 结果:
  16. After: wchar_t = 2 bytes
  17. After: MB_LEN_MAX: 5
  18. After: MB_CUR_MAX: 2
  19. 你好

 
2、宽字符使用

  • 使用宽字符类型时,字面量必须在引号前有前缀L。
  • 一个宽字符用单引号' ',一个宽字符字符串即多个宽字符(包括空字符)使用双引号" "。
  • 一个宽字符的占位符为%lc,宽字符字符串的占位符为%ls。
  • 宽字符字符串的结尾符,也占多个字节。
  • 使用头文件wchar.h中的 wprintf 输出宽字符,格式化字符串前必须有"L"。
  • Windows中也可以用 printf 输出宽字符。但 wprintf 和 printf 不能一起使用。
  1. #include <stdio.h>
  2. #include <locale.h>
  3. #include <wchar.h>
  4. int main(void)
  5. {
  6. setlocale(LC_ALL, "");
  7. wchar_t c = L'赞';
  8. wchar_t *s = L"你好";
  9. wprintf(L"%lc %ls\n", c, s);
  10. return 0;
  11. }
  12. // 结果:
  13. 赞 你好
  1. #include <stdio.h>
  2. #include <locale.h>
  3. int main(void)
  4. {
  5. setlocale(LC_ALL, "");
  6. wchar_t c = L'赞';
  7. wchar_t *s = L"你好";
  8. printf("%lc %ls\n", c, s);
  9. return 0;
  10. }
  11. // 结果:
  12. 赞 你好

三、多字节字符和宽字符相关函数

1、mblen   判断一个多字节字符占多少字节数

mblen:     int mblen(const char *str, size_t n) 

参数:str是指向多字节字符的指针, 一般检查第一个字符,n是要判断的最大字节数。

返回:解析的第一个字符的字节数,空的返回0,无效或不完整的多字节字符返回-1。

  1. #include <stdio.h>
  2. #include <stdlib.h>
  3. #include <locale.h>
  4. int main(void)
  5. {
  6. setlocale(LC_ALL, ""); // 切换到本地环境
  7. char *s = "你好";
  8. printf("%d\n", mblen(s, MB_CUR_MAX)); // "你"占用2个字节数
  9. char *c = "hi";
  10. printf("%d\n", mblen(c, MB_CUR_MAX)); // "h"占用1个字节数
  11. return 0;
  12. }
  13. // 结果: (Windows)
  14. 2
  15. 1

2、wctomb、wcstombs     宽字符转为多字节字符

宽字符:每个字符固定字节,Windows通常2字节,Linux通常4字节。多字节字符:每个字符不同字节,可能1个字节、2个字节、3个字节等。

由于多字节字符相对占有更少的内存空间,速度相对更快,也为了能更好地兼容只支持多字节字符的系统和应用程序,因此有时候需要把宽字符转为多字节字符。

  • wctomb:将一个宽字符转为多字节字符。(wide character to multi byte)
  • wcstombs:将宽字符字符串转为多字节字符串。

wctomb:        int wctomb(char *str, wchar_t wchar)   

参数:str是指向存储多字节字符数组的指针。wchar是一个将要转换的宽字符。

返回:若str不为NULL,返回写入数组中的字节数,wchar不能表示为多字节序列时返回-1。若str为NULL,编码有移位状态返回非零,编码无状态返回零。

wcstombs:      size_t wcstombs(char *str, const wchar_t *pwcs, size_t n)  

参数:str是指向存储多字节字符串数组的指针。pwcs是将要转换的宽字符字符串,n是最大转换字节数。

返回:写入数组中的字节数,不包括结尾的空字符。若遇到一个无效的多字节字符,则返回-1。

  1. #include <stdio.h>
  2. #include <locale.h>
  3. #include <stdlib.h>
  4. int main(void)
  5. {
  6. setlocale(LC_ALL, "");
  7. wchar_t c = L'赞'; // 一个宽字符,用单引号
  8. char s[16];
  9. int m = wctomb(s, c); // 宽字符转为多字节字符
  10. printf("wctomb: %d bytes, s = %s\n", m, s);
  11. return 0;
  12. }
  13. // 结果: (Windows)
  14. wctomb: 2 bytes, s = 赞
  1. #include <stdio.h>
  2. #include <locale.h>
  3. #include <stdlib.h>
  4. int main(void)
  5. {
  6. setlocale(LC_ALL, "");
  7. wchar_t ws[] = L"你好123"; // 宽字符字符串
  8. printf("wchar: %ls, size is %d bytes\n", ws, sizeof(ws));
  9. char s[16];
  10. int m = wcstombs(s, ws, 16); // 宽字符字符串转为多字节字符串
  11. printf("char: %s, wcstombs: %d bytes\n", s, m);
  12. return 0;
  13. }
  14. // 结果: (Windows)
  15. wchar: 你好123, size is 12 bytes // 包括结尾符
  16. char: 你好123, wcstombs: 7 bytes // 不包括结尾符

3、mbtowc、mbstowcs      多字节字符转为宽字符

多字节字符中每个字符占不同字节数,不利于数据处理,尤其是编码方式不同的情况。因此有时需将多字节字符转为固定字节的宽字符。

但当多字节字符转为宽字符时,若存在编码方式的差异,可能发生乱码。可以在编译时使用本地编码方式(例如Windows: -fexec-charset=GBK),也可以手写代码进行编码的转换。

  • mbtowc:将一个多字节字符转为宽字符。
  • mbstowcs :将多字节字符串转为宽字符字符串。

mbtowc:       int mbtowc(whcar_t *pwc, const char *str, size_t n)  

参数:pwc是指向宽字符对象的指针,str是指向一个将要转换的多字节字符的指针,n为最大转换字节数。

返回: 若str不为NULL,返回str消耗的字节数,空字节返回0,失败返回-1。若str为NULL,编码有移位状态返回非零,编码无状态返回零。

mbstowcs:       size_t mbstowcs(schar_t *pwcs, const char *str, size_t n)

参数:pwcs是指向宽字符对象的指针,str是指向将要转换的多字节字符串的指针,n为最大转换字节数。

返回: 转换的字符数,不包括结尾的空字符。若遇到一个无效的多字节字符,则返回-1。

  1. // utf8.c
  2. #include <stdio.h>
  3. #include <stdlib.h>
  4. #include <locale.h>
  5. int main(void)
  6. {
  7. setlocale(LC_ALL, "");
  8. char s[] = "赞"; // 多字节字符
  9. printf("s = %s, size is %d bytes\n", s, sizeof(s));
  10. wchar_t *p = (wchar_t *)malloc(8);
  11. int k = mbtowc(p, s, 8); // 多字节字符转为宽字符
  12. printf("p = %ls, mbtowc: %d bytes\n", p, k);
  13. free(p); // 动态分配的内存使用完主动释放
  14. return 0;
  15. }
  16. // TERMINAL输入:
  17. gcc -fexec-charset=GBK -o utf8 utf8.c
  18. ./utf8
  19. // 结果: (Windows)
  20. s = 赞, size is 3 bytes // 包括结尾符
  21. p = 赞, mbtowc: 2 bytes // 不包括结尾符
  1. // utf8.c
  2. #include <stdio.h>
  3. #include <stdlib.h>
  4. #include <locale.h>
  5. #include <string.h>
  6. int main(void)
  7. {
  8. setlocale(LC_ALL, "");
  9. char s[] = "你好123"; // 多字节字符
  10. printf("s = %s, size is %d bytes\n", s, sizeof(s));
  11. // int x = mbstowcs(NULL, s, 0); // 获取转换后的长度
  12. wchar_t *p = (wchar_t *)malloc(16);
  13. int y = mbstowcs(p, s, 16); // 多字节字符串转为宽字符字符串
  14. printf("p = %ls, mbstowcs: %d characters\n", p, y);
  15. free(p);
  16. return 0;
  17. }
  18. // TERMINAL输入:
  19. gcc -fexec-charset=GBK -o utf8 utf8.c
  20. ./utf8
  21. // 结果: (Windows)
  22. s = 你好123, size is 8 bytes // 包括结尾符
  23. p = 你好123, mbstowcs: 5 characters // 不包括结尾符

补充:

1、查看Windows计算机的当前字符集:

开始 --> 运行 -->  cmd --> 输入:chcp --> 在cmd窗口标题栏 右键属性 -->"选项"标签页 "当前活动页..."。注:65001(utf-8),936(GBK)。

修改Windows计算机的默认字符集:(慎重)

① 开始 --> 运行 -->  cmd --> 输入:chcp 65001。

②修改注册表。

 

查看 VSCode 当前字符集:

2、UTF-8编码与GBK编码的转换

UTF-8转为GBK:UTF-8编码 先转为 Unicode(Windows是UTF-16) 再转为GBK编码。

GBK转为UTF-8:GBK编码 先转为 Unicode(Windows是UTF-16) 再转为UTF-8编码。

注:UTF-8是Unicode字符集的编码方式之一,Unicode和GBK是两个不同的字符集,GBK既是字符集也是编码。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/488543
推荐阅读
相关标签
  

闽ICP备14008679号