亚马逊AWS官方博客 ·

利用 Apache Celeborn 减少 AWS EMR 集群中 Spot 实例回收导致的重算成本

💡 原文中文，约9800字，阅读约需24分钟。

📝

内容提要

AWS EMR 支持使用 Spot 实例运行大数据任务，但实例中断可能导致 Spark 任务重算。通过引入 Apache Celeborn 的远程 Shuffle 服务，将 Shuffle 数据存储在远程，提升容错能力，减少重算开销，最大化 Spot 实例的成本优势。测试显示，使用 Celeborn 后，即使 Spot 实例中断，任务也能完成，降低了运行成本。

🎯

关键要点

AWS EMR 支持使用 Spot 实例来降低大数据工作负载的成本，但中断可能导致 Spark 任务重算。
引入 Apache Celeborn 的远程 Shuffle 服务可以存储 Shuffle 数据，提高容错能力，减少重算开销。
Celeborn 是一个 Apache 顶级项目，旨在减少计算实例意外终止导致的重算开销并提升性能。
Celeborn 的核心设计包括 Push Shuffle 和 Partition 聚合，优化了数据存储和读取过程。
Celeborn 的架构由 Master、Worker 和 Client 组成，负责管理集群状态和 Shuffle 数据的存储。
Celeborn 的工作流程包括注册 Worker、请求存储 Slot、推送 Shuffle 数据等步骤。
测试中，使用 Celeborn 避免了 Spot 实例中断导致的重算，验证了其有效性。
Celeborn 通过存算分离解决了 Shuffle 数据丢失的问题，最大化了 Spot 实例的成本优势。

🔎

延伸解读

Spot 实例的优势与风险

AWS EMR 中使用 Spot 实例可以显著降低大数据处理的成本，但其不稳定性也带来了潜在风险。实例中断可能导致计算任务的重算，从而抵消成本优势。因此，运维人员需要设计有效的缓解措施，以最大化 Spot 实例的经济效益。

Apache Celeborn 的作用

Apache Celeborn 作为远程 Shuffle 服务，能够有效解决 Spot 实例中断带来的数据丢失问题。通过将 Shuffle 数据存储在 Celeborn 集群中，即使 Spot 实例被回收，任务也能顺利完成，避免了重算的隐性成本。这一特性使得 Celeborn 成为大数据处理中的重要工具。

存算分离的优势

Celeborn 的存算分离架构优化了数据存储与计算的流程，提升了系统的容错能力。通过将 Shuffle 数据存储在远程服务中，计算节点不再依赖本地磁盘，减少了数据丢失的风险。这种设计不仅提高了性能，还为大规模数据处理提供了更高的可靠性。

❓

延伸问答

Apache Celeborn 是什么？

Apache Celeborn 是一个 Apache 顶级项目，旨在为 Spark、Flink 等计算引擎提供远程 Shuffle 服务，减少计算实例意外终止导致的重算开销并提升性能。

如何利用 Apache Celeborn 减少 AWS EMR 的重算成本？

通过引入 Apache Celeborn 的远程 Shuffle 服务，Shuffle 数据存储在远程，提升容错能力，避免因 Spot 实例中断导致的重算，从而降低运行成本。

Celeborn 的核心设计有哪些？

Celeborn 的核心设计包括 Push Shuffle 和 Partition 聚合，优化了数据存储和读取过程。

Celeborn 的架构是怎样的？

Celeborn 的架构由 Master、Worker 和 Client 组成，Master 管理集群状态，Worker 存储和管理 Shuffle 数据，Client 负责与 Spark 任务的交互。

使用 Celeborn 进行 Spark 任务时的工作流程是什么？

工作流程包括注册 Worker、请求存储 Slot、推送 Shuffle 数据等步骤，确保 Shuffle 数据的有效存储和读取。

Celeborn 如何解决 Shuffle 数据丢失的问题？

Celeborn 通过存算分离的方式，将 Shuffle 数据存储在 Celeborn 集群中，避免了因实例中断导致的数据丢失。

🏷️