亚马逊AWS官方博客 ·

使用Amazon EMR Serverless Storage简化运维节省成本

💡 原文中文，约10500字，阅读约需25分钟。

📝

内容提要

EMR Serverless Storage在处理Shuffle数据时能显著提升Spark作业效率，特别是当Shuffle数据量超过10GB时，成本节省可达55.16%。而在10GB以下，传统存储更具经济性。本文分析了其性能，并提供了获取Shuffle数据的工具和方法。

🎯

EMR Serverless Storage在处理Shuffle数据时能显著提升Spark作业效率，特别是当Shuffle数据量超过10GB时，成本节省可达55.16%。
在10GB以下，传统存储更具经济性。
EMR Serverless Storage用户无需为作业配置磁盘存储空间，Spark DRA可以更高效地工作。
TPCDS 105个SQL测试显示，使用EMR Serverless Storage的总成本节省15.5%，时间基本持平。
当Shuffle数据量在10GB以上时，EMR Serverless Storage才能带来成本和性能的优势。
EMR Serverless Storage目前只在EMR Serverless 7.12+版本上支持，未来计划支持其他版本。
EMR Serverless Storage对每个Job支持的最大中间结果存储是200GB，超过限制会报错。
Spark作业的Shuffle数据量可以通过解析Spark event log获取，提供了相应的工具和代码示例。
开发了一个Event Log的MCP，可以帮助用户对Spark作业的性能和Shuffle数据进行全面分析。
适合Shuffle数据量超过10GB的作业使用EMR Serverless Storage，数据量越大的作业收益越明显。

🏷️

Umair Shahid：将PostgreSQL高可用性视为分层设计
PostgreSQL的高可用性应采用分层设计，首先明确故障范围、恢复点目标（RPO）和恢复时间目标（RTO）。从单主节点开始，逐步引入离线备份、WAL归档...
语言模型是商品吗？
近年来，语言模型的获取方式变得几乎免费，成为新兴商品。然而，可靠性、隐私保护和特定领域适应性仍是高端产品的特点，使得“商品”一词在语言模型中存在争议。
将AI应用从原型转向生产需要企业级Postgres基础设施
AI应用在数据库限制、集成复杂性和合规性方面面临挑战，尤其在金融和医疗等受监管行业。pgEdge推出企业级Postgres基础设施，以支持AI应用的安全性...
AI编码代理可以编写代码，Crafting希望帮助他们交付
Crafting CEO Sumeet Vaidya表示，六到九个月前，大家关注AI代理的快速代码生成，但他和联合创始人意识到，工程组织在扩展时面临协调和资源使用等挑战。
Macbook Neo：苹果重回校园的起点 - 肘子的 Swift 周报 #126
TelemetryDeck 证明了 Swift on Server 的可行性，支持每月处理超过 1600 万用户数据的分析服务。Daniel Jilg 分...
Junie CLI：支持多种大型语言模型的编码助手现已进入Beta阶段
JetBrains推出了Junie CLI，这是一款独立的AI编码助手，支持多种顶级模型，可在终端、IDE和CI/CD中使用。Junie具备实时提示、代码...