💡
原文英文,约1100词,阅读约需4分钟。
📝
内容提要
亚马逊将数据库表压缩任务从Apache Spark迁移到基于Python的Apache Ray,效率提升82%,每年节省1亿美元。Ray适合大规模数据处理,优化数据质量和性能。尽管Spark仍具优势,Ray的灵活性使其成为大型数据操作的理想选择。
🎯
关键要点
- 亚马逊将数据库表压缩任务从Apache Spark迁移到基于Python的Apache Ray,效率提升82%。
- 此迁移每年可为亚马逊节省1亿美元的计算服务费用。
- 压缩是亚马逊内部商业智能服务的重要功能,之前由Apache Spark负责。
- 亚马逊的数据库服务需要进行数据表的压缩以解决数据冗余问题。
- 亚马逊从使用Oracle数据仓库转向运行可扩展的exabyte级数据湖,保持ACID合规性。
- Ray的Python API和处理大数据集的能力使其在亚马逊数据科学家中受到欢迎。
- Ray能够将可并行化的Python应用程序部署到大规模集群上,简化了数据管道的构建。
- 亚马逊内部数据湖有数万用户,每天运行超过25,000个作业,处理约40PB的数据。
- 迁移到Ray后,压缩算法的性能显著提升,Ray的压缩速度远快于Spark。
- Ray的可靠性从85%提升至99.15%,接近Spark的99.91%。
- 尽管Ray在某些方面仍不如Spark,但其灵活性使其适合大规模数据操作。
- 项目团队计划将压缩算法适配Apache Iceberg,预计在2025年发布。
➡️