Go 语言字符串遍历的奥秘：为什么 range 能正确打印汉字，而 len 遍历却乱码？

在日常使用Go语言进行开发时，处理字符串是再常见不过的操作。

但你是否遇到过这样的困惑：同样一个包含汉字的字符串，使用range遍历可以正常显示汉字，而使用len索引遍历却出现乱码？这里就来深入解析这一现象背后的原因。

一个令人困惑的例子

先来看一段简单的代码：

package main

import "fmt"

func main() {
    str := "hello世界"

    // 使用普通for循环遍历
    fmt.Println("使用普通for循环遍历:")
    for i := 0; i < len(str); i++ {
        fmt.Printf("%c", str[i])
    }

    fmt.Println("\n使用range遍历:")
    // 使用range遍历
    for _, char := range str {
        fmt.Printf("%c", char)
    }
}

运行结果可能会让你惊讶：

使用普通for循环遍历:
helloä¸ç
使用range遍历:
hello世界

为什么同样的字符串，两种遍历方式结果截然不同？这就要从Go语言中字符串的本质说起了。

Go语言字符串的本质：字节序列

在Go语言中，string类型本质上是一个只读的字节切片（[]byte）。当我们创建一个字符串时，Go会使用UTF-8编码将其转换为字节序列存储在内存中。

UTF-8是一种变长编码方案，这意味着：

ASCII字符（如英文字母、数字）占用1个字节
大部分常用汉字占用3个字节
其他特殊字符可能占用2-4个字节

例如，字符串"世界"中的每个汉字在UTF-8编码下都占用3个字节：

"世"的UTF-8编码：0xE4 0xB8 0x96
"界"的UTF-8编码：0xE7 0x95 0x8C

len()函数的真相

当我们调用len(str)时，返回的并不是字符数，而是字节数。

对于字符串"hello世界"：

"hello"：5个英文字母，每个1字节，共5字节
"世界"：2个汉字，每个3字节，共6字节
总字节数：5 + 6 = 11字节

因此，len("hello世界")返回的是11，而不是7（字符数）。

两种遍历方式的本质区别

1. 普通for循环（基于len的索引遍历）

for i := 0; i < len(str); i++ {
    fmt.Printf("%c", str[i])
}

这种遍历方式是按字节索引的。每次循环中，str[i]返回的是字符串中第i个位置的字节（类型为byte，即uint8）。

当遇到汉字时，一个汉字由3个字节组成，而普通for循环会分别处理每个字节。每个单独的字节在ASCII字符集中没有对应的可打印字符，因此会显示为乱码。

2. range遍历

for _, char := range str {
    fmt.Printf("%c", char)
}

range遍历字符串时，Go会自动解码UTF-8编码，每次迭代返回一个完整的Unicode字符（类型为rune，即int32）。

range循环内部会识别UTF-8编码的规则，智能地将多个字节组合成一个完整的字符，从而正确显示汉字。

深入理解byte和rune

要完全理解这一现象，我们需要了解Go语言的两种字符类型：

byte类型

是uint8的别名
表示ASCII码的一个字符
足够表示英文字母、数字等单字节字符

rune类型

是int32的别名
代表一个UTF-8字符
可以表示中文、日文等多字节字符

// 示例：查看字符类型
var a byte = 'A'
var b rune = '你'
fmt.Printf("a的类型：%T，b的类型：%T\n", a, b) 
// 输出：a的类型：uint8，b的类型：int32

如何正确处理字符串？

1. 获取字符数（非字节数）

str := "hello世界"
// 错误方式：返回字节数
byteLen := len(str) // 结果为11

// 正确方式：返回字符数
charLen := utf8.RuneCountInString(str) // 结果为7
// 或者
charLen := len([]rune(str)) // 结果为7

2. 按字符索引访问

如果需要按字符索引访问字符串中的特定字符，可以先将字符串转换为rune切片：

str := "hello世界"
runes := []rune(str)

// 现在可以按字符索引访问
fmt.Printf("第一个字符：%c\n", runes[0]) // h
fmt.Printf("最后一个字符：%c\n", runes[6]) // 界

但要注意，这种方法会分配新的内存，对于大字符串可能有性能影响。

3. 字符串修改

Go语言中的字符串是只读的。任何"修改"操作实际上都是创建新的字符串。

str := "白猫"
runes := []rune(str)
runes[0] = '黑'
newStr := string(runes) // "黑猫"

为什么Go语言使用UTF-8编码？

Go语言选择UTF-8作为默认字符串编码不是偶然的，这是因为UTF-8具有以下优点：

兼容ASCII：UTF-8完全兼容ASCII编码
空间效率：对于主要由ASCII字符组成的文本，UTF-8非常节省空间
广泛支持：几乎所有现代操作系统和编程语言都支持UTF-8
自同步性：可以从字节流的任意位置开始解码

实际开发中的建议

优先使用range遍历：当需要遍历字符串中的字符时，总是优先使用range循环
区分字节和字符：始终清楚len()返回的是字节数，不是字符数
注意性能权衡：将字符串转换为[]rune切片会有内存开销，对于大字符串要谨慎使用
处理外部数据时验证编码：当处理来自外部的字符串时，可以使用utf8.ValidString()检查是否为有效的UTF-8编码

写在最后

Go语言中range遍历能正确打印汉字而len索引遍历出现乱码的现象，根源在于：

字符串在Go中是UTF-8编码的字节序列
len()返回字节数，不是字符数
普通for循环按字节处理，range循环按字符处理

理解这一区别对于正确处理Go语言中的字符串至关重要，尤其是在处理多语言文本时。只有更深入地理解Go语言的字符串处理机制，才能避免在实际开发中遇到相关的坑。

Go 语言字符串遍历的奥秘：为什么 range 能正确打印汉字，而 len 遍历却乱码？

一个令人困惑的例子

Go语言字符串的本质：字节序列

len()函数的真相

两种遍历方式的本质区别

1. 普通for循环（基于len的索引遍历）

2. range遍历

深入理解byte和rune

byte类型

rune类型

如何正确处理字符串？

1. 获取字符数（非字节数）

2. 按字符索引访问

3. 字符串修改

为什么Go语言使用UTF-8编码？

实际开发中的建议

写在最后

推荐

解决方案

网站建设

系统开发

技术支撑

业务中台

文案策划

新媒体运营

Go 语言字符串遍历的奥秘：为什么 range 能正确打印汉字，而 len 遍历却乱码 ？

一个令人困惑的例子

Go语言字符串的本质：字节序列

len()函数的真相

两种遍历方式的本质区别

1. 普通for循环（基于len的索引遍历）

2. range遍历

深入理解byte和rune

byte类型

rune类型

如何正确处理字符串？

1. 获取字符数（非字节数）

2. 按字符索引访问

3. 字符串修改

为什么Go语言使用UTF-8编码？

实际开发中的建议

写在最后

推荐

解决方案

网站建设

系统开发

技术支撑

业务中台

文案策划

新媒体运营

Go 语言字符串遍历的奥秘：为什么 range 能正确打印汉字，而 len 遍历却乱码？