当前位置:   article > 正文

【Golang - 90天从新手到大师】Day09 - string

【Golang - 90天从新手到大师】Day09 - string

  系列文章合集

Golang - 90天从新手到大师


String

一个字符串是一个不可改变的字节序列。字符串可以包含任意的数据,但是通常是用来包含人类可读的文本。

len()返回字符串字节数目(不是rune数)。

通过索引可以访问某个字节值,0 <= index < len(str)。越界会panic。索引不是对应的字符而是对应的字节,因为有有非ASCII的UTF8字符有多个字节。

  1. ​​​​​​​s := "hello, world"
  2. fmt.Println(len(s)) // "12" 英文字符占一个字节
  3. fmt.Println(s[0], s[7]) // "104 119" ('h' and 'w')
for range

循环是循环的字节,而非字符

  1. for i, r := range "Hello, 世界ꡐ" {
  2. fmt.Printf("%d\t%q\t%d\n", i, r, r)
  3. }
  1. ​​​​​​​0 'H' 72
  2. 1 'e' 101
  3. 2 'l' 108
  4. 3 'l' 108
  5. 4 'o' 111
  6. 5 ',' 44
  7. 6 ' ' 32
  8. 7 '世' 19990
  9. 10 '界' 30028
  10. 13 'ꡐ' 43088


第三列是字符的码点。
 

字符串截取与链接
  1. fmt.Println(s[:5]) // "hello"
  2. fmt.Println(s[7:]) // "world"
  3. fmt.Println(s[:]) // "hello, world"
  4. fmt.Println("hi" + s[5:]) //hi world
比较
1 字符串可以用==和<进行比较。通过逐个字节比较完成的,因此比较的结果是字符串自然编码的顺序。
2 原生字符

使用`反引号括起来,没有转义操作。
应用:HTML模板、JSON面值、命令行提示信息等。

编码

1 Unicode让我们可以通过Unicode码点输入特殊的字符。有两种形式:\uhhhh对应16bit的码点值,\Uhhhhhhhh对应32bit的码点值,其中h是一个十六进制数字,每一个对应码点的UTF8编码。以下表示相同字符:

  1. "世界"
  2. "\xe4\xb8\x96\xe7\x95\x8c"
  3. "\u4e16\u754c"
  4. "\U00004e16\U0000754c"

2 对于小于256码点值可以写在一个十六进制转义字节中,例如'\x41'对应字符'A',但是对于更大的码点则必须使用\u或\U转义形式。因此,'\xe4\xb8\x96'并不是一个合法的rune字符,虽然 这三个字节对应一个有效的UTF8编码的码点。
3 字符串长度用utf8.RuneCountInString(s)来获取。

rune

1 Unicode码点对应Go语言中的rune整数类型。
2 因为 rune大小一致,所以支持数组索引和方便切割。

string与[]rune转换
  1. r := []rune("你好 world!")
  2. fmt.Printf("%x\n", r) // "[4f60 597d 20 77 6f 72 6c 64 21]"
  3. fmt.Println(string(r)) // "你好 world"
  4. }
  5. fmt.Println(string(65)) // "A", not "65" 整形字符串输出为unicode码点的utf8字符串。
  6. fmt.Println(string(0x4eac)) // "京"
对字符串操作的4个包bytes、strings、strconv、unicode包
  • bytes包操作[]byte。因为字符串是只读的,因此逐步构创建字符串会导致很多分配和复制。使用 bytes.Buffer类型会更高。

  • strings包提供切割,索引,前缀,查找替换等功能。

  • strconv包提供了布尔型、整型数、浮点数和对应字符串的相互转换,还提供了双引号转义相 关的转换。

  • unicode包提供了IsDigit、IsLetter、IsUpper和IsLower等类似功能,它们用于给字符分类。

字符串与数字转换

将一个整数转为字符串

  1. x := 123
  2. fmt.Println(strconv.Itoa(x)) // "123"

​​​​​​​将一个字符串解析为整数

  1. x, err := strconv.Atoi("123") // x is an int
  2. y, err := strconv.ParseInt("123", 10, 64)

​​​​​​​FormatInt和FormatUint函数可以用不同的进制来格式化数字:

fmt.Println(strconv.FormatInt(int64(23), 2)) //将int64转换成2进制
 

底层原型及编码

  1. #runtime/string.go
  2. type stringStruct struct {
  3. str unsafe.Pointer
  4. len int
  5. }

从字符串定义可以看出字符串是一个结构体,包含字符串指针和长度。
测试代码见下方:

  1. package main
  2. var s string
  3. func main() {
  4. s = "123 你好 world!"
  5. }

​​​​​​​编译及通过gdb查看变量s的内存数据分布见图1:

图片

图1

从上图可得知字符串数字123占3个字节分别为0x31 0x32 0x33。分别对应的是ascii。

  1. "\344\275\240\345\245\275"8进制表示的你好。
  2. "0xe4 0xbd 0xa0 0xe5 0xa5 0xbd"16进制表示的你好。

​​​​​​​那计算机是如何识别是ascii还是unicode的呢,内存中存储的都是以字节为单元的,相邻哪几个是组成一个汉字呢?为了说明这个问题还是看一下上图1以”好“这个字说明,见下表格:

8进制345245275
16进制0xe50xa50xbd
2进制111001011010010110111101

“好”字的依据图2可知,unicode的十六进制值为\u597d。
参考:https://www.unicode.org/charts/PDF/Unicode-5.2/U52-4E00.pdf

图片

图2

那如何将3个字节转换成unicode的呢?
根据utf8编码规则见图3-go语言圣经截图:

图片

图3-go语言圣经截图


发现好字的2进制表示正好符合1110xxxx  10xxxxxx  10xxxxxx
所以计算机识别的时候只要识别到1110且后两个字节的前2位都是10那这3个字节组成的就表示成一个字。
具体如何将这3个字节转换成unicode,有兴趣的朋友可以查查。
转换成unicode之后就可以根据unicode码找到字体包中的字。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号