亚马逊通过将任务从Apache Spark迁移到Ray节省数百万

亚马逊通过将任务从Apache Spark迁移到Ray节省数百万

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

亚马逊将数据库表压缩任务从Apache Spark迁移到基于Python的Apache Ray,效率提升82%,每年节省1亿美元。Ray适合大规模数据处理,优化数据质量和性能。尽管Spark仍具优势,Ray的灵活性使其成为大型数据操作的理想选择。

🎯

关键要点

  • 亚马逊将数据库表压缩任务从Apache Spark迁移到基于Python的Apache Ray,效率提升82%。
  • 此迁移每年可为亚马逊节省1亿美元的计算服务费用。
  • 压缩是亚马逊内部商业智能服务的重要功能,之前由Apache Spark负责。
  • 亚马逊的数据库服务需要进行数据表的压缩以解决数据冗余问题。
  • 亚马逊从使用Oracle数据仓库转向运行可扩展的exabyte级数据湖,保持ACID合规性。
  • Ray的Python API和处理大数据集的能力使其在亚马逊数据科学家中受到欢迎。
  • Ray能够将可并行化的Python应用程序部署到大规模集群上,简化了数据管道的构建。
  • 亚马逊内部数据湖有数万用户,每天运行超过25,000个作业,处理约40PB的数据。
  • 迁移到Ray后,压缩算法的性能显著提升,Ray的压缩速度远快于Spark。
  • Ray的可靠性从85%提升至99.15%,接近Spark的99.91%。
  • 尽管Ray在某些方面仍不如Spark,但其灵活性使其适合大规模数据操作。
  • 项目团队计划将压缩算法适配Apache Iceberg,预计在2025年发布。
➡️

继续阅读