AWS EMR 支持使用 Spot 实例运行大数据任务,但实例中断可能导致 Spark 任务重算。通过引入 Apache Celeborn 的远程 Shuffle 服务,将 Shuffle 数据存储在远程,提升容错能力,减少重算开销,最大化 Spot 实例的成本优势。测试显示,使用 Celeborn 后,即使 Spot 实例中断,任务也能完成,降低了运行成本。
Apache Celeborn已从孵化阶段毕业,成为Apache软件基金会的顶级项目。作为大数据计算引擎的中间数据服务,Celeborn提升了性能、稳定性和灵活性,已在阿里巴巴和小红书等公司的生产环境中部署。未来,Celeborn计划增加TLS支持和更多存储后端等功能。
完成下面两步后,将自动完成登录并继续当前操作。