小红花·文摘

Python Pandas弃用NumPy，采用更快的PyArrow

The New Stack ·

本文介绍了如何使用PyArrow进行数据分析。PyArrow是一个高效的内存数据处理库，支持列式存储。文章详细讲解了PyArrow的核心数据结构，如Table、RecordBatch、Array等，并展示了如何读取和写入Parquet、JSON、CSV和Feather文件。还介绍了基本的数据操作，如过滤、连接和聚合。最后，文章介绍了通过PyArrow连接到Dremio进行高效数据传输的Apache Arrow Flight，适用于大数据分析。

使用 PyArrow 在 Python 中进行数据分析入门

DEV Community ·

Apache Parquet是一种流行的列式存储格式，使用pyarrow包可以轻松读写Parquet文件。可以转换DataFrame为Parquet文件，并选择只读取部分列。还可以从Parquet文件获取元数据和架构信息。pyarrow使得处理Parquet文件变得简单。

Python中读写Parquet文件的方法

极道 ·

如何使用Python读写Parquet文件

Mouse Vs Python ·

绿盟科技CERT监测发现Apache Arrow发布安全通告，修复了PyArrow库中的一个任意代码执行漏洞（CVE-2023-47248）。攻击者可通过构造恶意数据包，在目标系统上实现任意代码执行。受影响版本为0.14.0 <= Apache Arrow PyArrow <= 14.0.0，官方已发布新版本，请尽快升级。若无法升级，可使用官方提供的“pyarrow-hotfix”软件包禁用漏洞。

Apache Arrow PyArrow任意代码执行漏洞（CVE-2023-47248）通告

绿盟科技技术博客 ·