xxxx的个人博客 ·

序列化：Python 多进程通信的通用语言

💡 原文中文，约16900字，阅读约需41分钟。

📝

内容提要

序列化是将内存中的数据结构转换为可存储或传输的格式，Python中常用的模块是pickle。它在多进程通信中至关重要，确保数据在不同进程间安全传递，从而实现高效的任务处理和资源管理，避免不可序列化对象的问题。

🎯

关键要点

序列化是将内存中的数据结构转换为可存储或传输的格式。
Python中常用的序列化模块是pickle。
序列化在多进程通信中确保数据安全传递，避免不可序列化对象的问题。
序列化的目的在于跨越时间和空间的边界，持久化和进程间通信。
multiprocessing模块用于在Python内部创建新的子进程并执行函数。
subprocess模块用于与外部进程交互，传递字符串命令。
multiprocessing通过序列化将Python对象传递给子进程。
fork和spawn是不同操作系统下创建子进程的方式，影响序列化的要求。
使用if __name__ == '__main__'可以避免无限递归创建进程的问题。
PicklingError通常是由于尝试传递不可序列化的对象导致的。
最佳实践是让子进程在自己的环境中创建和管理资源。
freezing_support()用于解决打包后的多进程应用中的问题。
rq框架基于Redis实现任务队列，依赖序列化实现生产者与消费者的解耦。
任务函数的参数中不能包含不可序列化的对象。
模块级副作用可能导致意想不到的结果，需谨慎设计任务函数。
代码版本不一致可能导致序列化失败，需小心管理部署。
pickle的安全风险要求不对不受信任的数据进行反序列化。
理解序列化是掌握现代并行与分布式系统的关键。

🔎

延伸解读

序列化的核心作用

序列化是实现多进程通信的基础，确保数据在不同进程间安全传递。理解序列化的机制对于开发高效的并行和分布式系统至关重要，尤其是在处理复杂数据结构时。

不可序列化对象的风险

在使用 multiprocessing 时，尝试传递不可序列化的对象会导致 PicklingError。开发者应避免将数据库连接、文件句柄等状态紧密绑定的对象传递给子进程，确保子进程在独立环境中创建和管理这些资源。

跨平台的注意事项

不同操作系统下的进程创建方式（如 fork 和 spawn）对序列化的要求不同。在 Windows 上，spawn 模式要求所有传递的对象必须可序列化，这可能导致在 Linux 上正常运行的代码在 Windows 上失败。

安全性与版本管理

使用 pickle 进行序列化时，需警惕安全风险，避免对不受信任的数据进行反序列化。此外，生产者和消费者的代码版本不一致可能导致序列化失败，因此在部署时需谨慎管理版本。

❓

延伸问答

什么是序列化，它的主要目的是什么？

序列化是将内存中的数据结构转换为可存储或传输的格式，主要目的是跨越时间和空间的边界，实现持久化和进程间通信。

在Python中，哪个模块常用于序列化？

在Python中，常用的序列化模块是pickle。

如何避免在多进程中出现无限递归创建进程的问题？

使用if __name__ == '__main__'可以避免无限递归创建进程的问题。

什么是PicklingError，它通常由什么引起？

PicklingError是由于尝试传递不可序列化的对象导致的错误。

在使用multiprocessing时，fork和spawn有什么区别？

fork是克隆父进程，子进程拥有父进程的内存副本，而spawn则启动一个全新的Python解释器进程，子进程的内存是空的。

如何在打包后的多进程应用中解决启动问题？

可以使用freezing_support()函数来解决打包后的多进程应用中的启动问题。

🏷️