Tony Bai ·

string 与 rune 的设计哲学：为什么Go 程序员很少为“乱码”烦恼？

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

本文讨论了Go语言中字符与编码的处理，强调UTF-8和Unicode的重要性。Go通过区分字节和字符，简化了多语言文本处理，避免了乱码。理解string与rune的区别是掌握Go文本处理的关键。

🎯

🔎

在编程中，理解编码和字符集的基本概念至关重要。字符集是符号的集合，而编码则是将这些符号映射为比特序列的规则。错误的字符集或编码使用会导致乱码问题，因此开发者需掌握这些基础知识，以避免常见的编码陷阱。

Go语言通过将UTF-8作为默认编码，简化了多语言文本处理。string和rune的设计清晰分离了字节和字符，使得开发者在处理文本时不再需要担心编码问题。这种设计不仅提高了开发效率，也减少了因编码错误导致的bug。

尽管Go语言在编码处理上提供了便利，但在与外部系统交互时，开发者仍需保持编码意识。例如，处理非UTF-8编码的文件或数据库时，必须进行适当的转换，以确保数据的正确性和一致性。

❓

Go语言通过区分字节和字符，采用UTF-8作为默认编码，从根本上简化了多语言文本处理，避免了乱码问题。

string是不可变的字节序列，表示UTF-8编码的文本；而rune是int32的别名，代表Unicode码点，表示文本的逻辑字符。

计算机的世界中只有比特（0和1的序列），字符需要通过编码规则转换为比特序列才能被计算机存储和处理。

len()函数返回的是字节数，适用于物理层面；而for range循环返回的是字符（rune），适用于逻辑层面。

在与外部系统交互时，开发者需要确保使用UTF-8编码，并在文件I/O、HTTP请求和数据库交互中保持一致性。

Unicode是一个字符集，提供每个字符的唯一编号，而UTF-8是将这些编号转换为比特序列的编码方案。

🏷️