当前位置:   article > 正文

Python编程为什么要用uft-8?如何查看字符串的编码及进制转换_查询utf8编码的方法python

查询utf8编码的方法python

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

utf-8是可变长字符编码格式,在日常应用中如果只使用英文则使用ASCII编码即可满足要求,但如果需要使用中文或其他语言只有ASCII编码就不能表示如此多的字符了,这时就出现UNICODE编码将所有其他语种都包含在同一编码范围内,这样就可以打印其他语种的字符了,但是Unicode 只是对字符编码做了规范,并未对字符如何存储做实现,utf-8就是定义了unicode存储的最小bit数8位,英文数字及其他Ascii码可以占一个字节,中文字符占用3个字节,具体的实现方式可以参考网络上的utf-8介绍


一、打印字符串

在字符串前面添加前缀,r,u,b有什么区别?

  • r 代表在打印字符串时不进行转义,直接将字符串按字面打印出来
  • u代表在打印字符串以Uncode进行编码
  • b代表将字符串字节进行转换
print(r'Hello\n')
print(u'Hello\n')
print(b'Hello\n')
  • 1
  • 2
  • 3

三个语句实际打印效果如下:

Hello\n
Hello

b'Hello\n'
  • 1
  • 2
  • 3
  • 4

二、将字符串转换成byte序列并打印编码

英文字符打印:

str1 = b'abcdefg1234'
print(str1[0])
for index in str1:
    print(index)
    print(hex(index))
  • 1
  • 2
  • 3
  • 4
  • 5

输出结果

97
97
0x61
98
0x62
99
0x63
100
0x64
101
0x65
102
0x66
103
0x67
49
0x31
50
0x32
51
0x33
52
0x34
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

三、打印中文字符编码

打印中文字符串时不能直接在字符串前加前缀b,否则会报警。我们需要首先调用字符串函数encode 将字符串编码成byte序列,然后可以按照列表形式或For 语句打印返回的byte序列;
反之,也可以将列表转换成字符串,调用列表的decode函数

strC = '中文123456'
print(strC[0])
print(strC.encode('utf-8'))
print(strC.encode('utf-8')[0])
print(len(strC.encode('utf-8')))
print(strC.encode('utf-8').decode('utf-8'))

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
中
b'\xe4\xb8\xad\xe6\x96\x87123456'
228
12
中文123456
  • 1
  • 2
  • 3
  • 4
  • 5

四、数据格式转换

  • ord()___查询字符的Unicode码,返回的是十进制的Unicode编码
print(ord('文'))
  • 1

输出:

25991
  • 1

  • chr()___与ord()相反,通过unicode十进制码返回相应的字符
print(chr(ord('文')))
  • 1

输出:

  • 1

注意,ord()查询的是字符在Unicode的数值,并不是字符串在utf-8编码下的数值,utf-8下数值存储是依照一定格式的,其数值转换成十进制不是Unicode的十进制值


  • ascii()___将字符串转换成Ascii格式,如果字符串中存在其它字符则用\u或\x表示
print(ascii('中文abc'))#将字符串转换为ASCii格式,如果字符串中存在其它字符则用\u或\x表示
print(ascii('abc123'))
print(chr(97))
print(hex(189))
print(chr(0x6587))
  • 1
  • 2
  • 3
  • 4
  • 5

输出:

'\u4e2d\u6587abc'
'abc123'
a
0xbd
文
  • 1
  • 2
  • 3
  • 4
  • 5

  • int()___整数数值转换,int()有两个参数,如果要输出10进制值,则前面可以写数值或string,如果要输出其它进制数值则第一个参数需要为数值(不必加进制前缀),后一个参数需要填写前一个数值或string是哪个进制的
print(0o123)
print(0x12a)
print(int('12a',16))
print(int(0x1231))
  • 1
  • 2
  • 3
  • 4

输出:

83
298
298
4657
  • 1
  • 2
  • 3
  • 4
  • hex() 将整数转换成十六进制数
  • bin() 将整数转换成二进制数
print(bin(255))
print(hex(255))
  • 1
  • 2

输出:

0b11111111
0xff
  • 1
  • 2

总结

  • 将字符串编码为byte列表可以通过列表对字符串中的字符进行识别,比如是否包含中文,是否包含数字;
  • 如果简单的判断可以直接调用字符串自带的相关函数 ,具体哪些方法可以参考官方手册
  • 将英文或数字打印字符串可以直接以16进制或其他进制转换输出
  • 如果字符串中包含中文需要调用字符串函数encode()先将字符串转换成byte再打印,直接在中文字符串前加b不能直接实现转换
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/678865
推荐阅读
相关标签
  

闽ICP备14008679号