赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
utf-8是可变长字符编码格式,在日常应用中如果只使用英文则使用ASCII编码即可满足要求,但如果需要使用中文或其他语言只有ASCII编码就不能表示如此多的字符了,这时就出现UNICODE编码将所有其他语种都包含在同一编码范围内,这样就可以打印其他语种的字符了,但是Unicode 只是对字符编码做了规范,并未对字符如何存储做实现,utf-8就是定义了unicode存储的最小bit数8位,英文数字及其他Ascii码可以占一个字节,中文字符占用3个字节,具体的实现方式可以参考网络上的utf-8介绍
在字符串前面添加前缀,r,u,b有什么区别?
print(r'Hello\n')
print(u'Hello\n')
print(b'Hello\n')
三个语句实际打印效果如下:
Hello\n
Hello
b'Hello\n'
英文字符打印:
str1 = b'abcdefg1234'
print(str1[0])
for index in str1:
print(index)
print(hex(index))
输出结果
97 97 0x61 98 0x62 99 0x63 100 0x64 101 0x65 102 0x66 103 0x67 49 0x31 50 0x32 51 0x33 52 0x34
打印中文字符串时不能直接在字符串前加前缀b,否则会报警。我们需要首先调用字符串函数encode 将字符串编码成byte序列,然后可以按照列表形式或For 语句打印返回的byte序列;
反之,也可以将列表转换成字符串,调用列表的decode函数
strC = '中文123456'
print(strC[0])
print(strC.encode('utf-8'))
print(strC.encode('utf-8')[0])
print(len(strC.encode('utf-8')))
print(strC.encode('utf-8').decode('utf-8'))
中
b'\xe4\xb8\xad\xe6\x96\x87123456'
228
12
中文123456
print(ord('文'))
输出:
25991
print(chr(ord('文')))
输出:
文
注意,ord()查询的是字符在Unicode的数值,并不是字符串在utf-8编码下的数值,utf-8下数值存储是依照一定格式的,其数值转换成十进制不是Unicode的十进制值
print(ascii('中文abc'))#将字符串转换为ASCii格式,如果字符串中存在其它字符则用\u或\x表示
print(ascii('abc123'))
print(chr(97))
print(hex(189))
print(chr(0x6587))
输出:
'\u4e2d\u6587abc'
'abc123'
a
0xbd
文
print(0o123)
print(0x12a)
print(int('12a',16))
print(int(0x1231))
输出:
83
298
298
4657
print(bin(255))
print(hex(255))
输出:
0b11111111
0xff
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。