亚马逊AWS官方博客 ·

使用Amazon EMR Serverless Storage简化运维节省成本

💡 原文中文，约10500字，阅读约需25分钟。

📝

内容提要

EMR Serverless Storage在处理Shuffle数据时能显著提升Spark作业效率，特别是当Shuffle数据量超过10GB时，成本节省可达55.16%。而在10GB以下，传统存储更具经济性。本文分析了其性能，并提供了获取Shuffle数据的工具和方法。

🎯

EMR Serverless Storage在处理Shuffle数据时能显著提升Spark作业效率，特别是当Shuffle数据量超过10GB时，成本节省可达55.16%。
在10GB以下，传统存储更具经济性。
EMR Serverless Storage用户无需为作业配置磁盘存储空间，Spark DRA可以更高效地工作。
TPCDS 105个SQL测试显示，使用EMR Serverless Storage的总成本节省15.5%，时间基本持平。
当Shuffle数据量在10GB以上时，EMR Serverless Storage才能带来成本和性能的优势。
EMR Serverless Storage目前只在EMR Serverless 7.12+版本上支持，未来计划支持其他版本。
EMR Serverless Storage对每个Job支持的最大中间结果存储是200GB，超过限制会报错。
Spark作业的Shuffle数据量可以通过解析Spark event log获取，提供了相应的工具和代码示例。
开发了一个Event Log的MCP，可以帮助用户对Spark作业的性能和Shuffle数据进行全面分析。
适合Shuffle数据量超过10GB的作业使用EMR Serverless Storage，数据量越大的作业收益越明显。

🔎

EMR Serverless Storage在处理Shuffle数据时，特别适合数据量超过10GB的作业。对于小于10GB的作业，传统存储方式更具经济性。因此，用户在选择存储方案时，应根据作业的Shuffle数据量进行评估，以确保成本效益最大化。

使用EMR Serverless Storage可以在Shuffle数据量较大的情况下显著降低成本，最高可达55.16%的节省。然而，用户需注意，若数据量低于10GB，可能会面临性能和成本的劣势。因此，合理评估作业的Shuffle数据量是关键。

目前，EMR Serverless Storage仅支持EMR Serverless 7.12+版本，且对每个作业的中间结果存储有200GB的限制。未来计划支持更多版本，用户应关注更新，以便及时利用新功能。

❓

EMR Serverless Storage在处理Shuffle数据时能显著提升Spark作业效率，特别是当Shuffle数据量超过10GB时，成本节省可达55.16%。

当Shuffle数据量在10GB以下时，传统存储更具经济性。

EMR Serverless Storage目前只在EMR Serverless 7.12+版本上支持，且每个Job支持的最大中间结果存储为200GB，超过限制会报错。

Spark作业的Shuffle数据量可以通过解析Spark event log获取，具体方法是将event log放到S3上并使用相应的工具进行解析。

在TPCDS 105个SQL测试中，使用EMR Serverless Storage的总成本节省15.5%，时间基本持平，特别是对于10GB-100GB的Shuffle数据量，平均成本节省13.32%。

EMR Serverless Storage适合Shuffle数据量超过10GB的作业，数据量越大的作业收益越明显。

🏷️