InfoQ ·

迪卡侬切换至Polars以优化数据管道和基础设施成本

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

迪卡侬通过使用开源库Polars优化数据管道，发现其在处理小于50 GiB的数据时，比Apache Spark更快且成本更低。尽管在Kubernetes上运行Polars存在挑战，但其效率显著提升。

🎯

🔎

迪卡侬选择Polars主要是为了处理小于50 GiB的数据集，因其在速度和成本上优于Apache Spark。然而，Polars并不适合所有场景，特别是涉及复杂聚合或多个连接的任务。因此，团队需谨慎评估数据集的特性，以决定是否使用Polars。

虽然Polars在单节点Kubernetes pod上运行效率高，但在Kubernetes环境中部署Polars也带来了新的挑战。团队需要学习如何管理容器服务，这可能导致数据管道在团队之间的流转变慢。因此，团队在实施Polars时需考虑这些管理和安全方面的因素。

迪卡侬的数据平台采用了Medallion架构来优化数据质量和治理。随着Polars的引入，团队能够更高效地处理小型数据集，这表明数据处理架构正在向更灵活和高效的方向发展。未来，如何平衡不同工具的使用将是关键。

❓

迪卡侬选择Polars是因为它在处理小于50 GiB的数据时比Apache Spark更快且成本更低。

Polars的优势包括更快的计算速度和更低的成本，尤其是在处理小型数据集时。

在Kubernetes上运行Polars的挑战包括需要学习如何管理容器服务，并可能导致数据管道在团队之间的跳转变慢。

迪卡侬的数据平台采用Medallion架构，使用AWS S3存储Delta表，并通过MWAA管理工作流。

Polars的语法与Spark相似，这使得团队能够更容易地将Spark作业迁移到Polars。

迪卡侬决定仅在输入表小于50 GiB且不涉及复杂聚合的情况下实施Polars。

🏷️