The New Stack ·

亚马逊通过将任务从Apache Spark迁移到Ray节省数百万

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

亚马逊将数据库表压缩任务从Apache Spark迁移到基于Python的Apache Ray，效率提升82%，每年节省1亿美元。Ray适合大规模数据处理，优化数据质量和性能。尽管Spark仍具优势，Ray的灵活性使其成为大型数据操作的理想选择。

🎯

🔎

尽管Ray在性能上超越了Spark，但在通用数据处理功能上仍有差距。Ray缺乏简单的SQL接口，用户在迁移时需考虑定制化的需求。对于特定的复杂问题，Ray的灵活性使其成为更优选择，但并非所有Spark任务都能直接迁移到Ray上。

数据库表的压缩是亚马逊内部商业智能服务的关键功能，直接影响数据质量和存储效率。通过将压缩任务迁移到Ray，亚马逊不仅提升了效率，还显著降低了计算成本，显示出优化数据处理流程的重要性。

亚马逊计划将Ray的压缩算法适配Apache Iceberg，预计在2025年发布。这一进展可能会进一步提升数据处理的效率，但在此过程中，团队需解决Ray的可靠性问题，以确保长期的成本效益。

❓

亚马逊迁移到Ray是为了提高数据库表压缩任务的效率，提升了82%，每年节省1亿美元的计算服务费用。

Ray在处理大规模数据时更灵活，能够将可并行化的Python应用程序部署到大规模集群上，且压缩速度显著快于Spark。

数据表压缩是为了解决数据冗余问题，确保数据质量和性能。

Ray的可靠性从85%提升至99.15%，接近Spark的99.91%。

亚马逊的内部数据湖有数万用户，每天运行超过25,000个作业。

亚马逊计划将压缩算法适配Apache Iceberg，预计在2025年发布，以改善数据处理流程。

🏷️