运维咖啡吧 ·

关于编码你必须知道的知识和技巧

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

乱码问题是运维中的常见挑战。计算机使用二进制数据，字符编码如ASCII、GB2312和Unicode帮助处理不同语言。UTF-8编码通过可变长度解决存储和带宽问题。避免乱码需确保文件、终端和系统编码一致，可以使用命令file检查编码，或通过rsync批量转换文件名编码。

🎯

❓

乱码问题是运维中的常见挑战，出现的原因是计算机只认识二进制数据，其他格式的数据需要转换成二进制才能被处理。

ASCII编码包含128个字符，适用于英文，而Unicode编码支持多种语言，最新版本收录超过13万个字符。

UTF-8编码通过可变长度的方式，英文字母占用一个字节，而汉字可能占用三个字节，从而有效节省存储和带宽。

避免乱码需确保文件、终端和系统编码一致，可以使用命令file检查编码，或通过rsync批量转换文件名编码。

在Linux下可以使用file命令查看文件的编码方式，例如使用命令file filename。

可以在命令前添加LC_ALL=C来确保所有系统执行相同命令时输出结果一致。

🏷️