The New Stack ·

Python Pandas弃用NumPy，采用更快的PyArrow

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

Pandas 3.0即将发布，采用PyArrow替代NumPy，显著提升数据加载和读取速度，读取速度提高10倍。用户可无缝过渡，API保持不变。

🎯

🔎

PyArrow的引入使得Pandas在处理列式数据时显著提升性能，读取速度提高10倍。这对于需要快速数据处理的用户来说，意味着可以更高效地进行数据分析，尤其是在处理大规模数据集时。

Pandas 3.0将保持与现有API的兼容性，用户无需重新学习或修改代码即可享受PyArrow带来的性能提升。这种无缝过渡降低了技术迁移的风险，适合希望提升数据处理效率的组织。

PyArrow支持Feather和Parquet两种新格式，分别适用于不同的数据存储需求。Feather适合快速读取未压缩数据，而Parquet则在压缩存储方面表现优异。用户应根据具体需求选择合适的格式，以优化存储和读取性能。

❓

Pandas 3.0将采用PyArrow替代NumPy，读取速度提高10倍。

PyArrow提供列式存储，支持复杂数据类型和压缩技术，且在处理列式数据时速度更快。

Pandas 3.0的发布日期尚未确定，原定于2024年4月发布，但目前没有具体时间。

使用PyArrow读取2.2GB的CSV文件速度从55.8秒降至11.8秒，显著提升性能。

Pandas库由Wes McKinney于2008年创建，最初基于NumPy构建，用于管理大型数据集。

PyArrow支持Feather和Parquet两种新的二进制格式，分别用于加速数据交换和压缩数据。

🏷️