Robert的博客 ·

Python 2/3下如何处理cjk编码的zip文件

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文讨论了在Python 2和3中处理中文编码的zip文件的方法。在Python 2中，通过将文件名解码为unicode来处理中文；在Python 3中，根据语言编码标志（EFS）选择解码方式，通常使用gb18030。建议将所有文件名连接起来以提高编码猜测的准确性。

🎯

关键要点

在Python 2中，zipfile.ZipInfo的filename类型是str，可以通过解码为unicode来处理中文文件名。
在Python 3中，根据语言编码标志（EFS）选择解码方式，EFS为1时使用utf8，EFS为0时使用cp437。
许多软件在创建zip文件时使用gb18030或其他非标准编码，因此需要将文件名反转为bytes后再解码。
为了提高编码猜测的准确性，可以将所有文件名连接起来进行编码猜测。

🔎

延伸解读

Python 2与Python 3的编码处理差异

在处理中文编码的zip文件时，Python 2和Python 3的处理方式存在显著差异。Python 2使用str类型的filename，需要通过解码为unicode来正确显示中文。而Python 3则依赖于语言编码标志（EFS）来决定解码方式，这意味着开发者需要了解不同编码的使用场景，以避免出现乱码问题。

编码猜测的准确性

由于许多软件在创建zip文件时使用非标准编码（如gb18030），这可能导致解码时出现错误。为了提高编码猜测的准确性，建议将所有文件名连接起来进行处理，而不是单独处理每个文件名。这样可以更好地利用编码检测工具，减少解码失败的风险。

❓

延伸问答

如何在Python 2中处理中文编码的zip文件？

在Python 2中，可以通过将zipfile.ZipInfo的filename解码为unicode来处理中文文件名。

Python 3中如何选择zip文件的解码方式？

在Python 3中，根据语言编码标志（EFS）选择解码方式，EFS为1时使用utf8，EFS为0时使用cp437。

为什么需要将文件名反转为bytes再解码？

因为许多软件在创建zip文件时使用gb18030或其他非标准编码，因此需要将文件名反转为bytes后再解码。

如何提高编码猜测的准确性？

可以将所有文件名连接起来进行编码猜测，以提高编码猜测的准确性。

在Python 2中如何读取zip文件的中文文件名？

可以使用zipfile模块读取zip文件，并通过decode方法将文件名解码为unicode。

mczip是什么？

mczip是一个兼容Python 2和Python 3的库，提供了处理zip文件的编码猜测功能。

🏷️