AWS Glue 5.0 引入 Spark 3.5.2 和增强的 ETL 性能

AWS Glue 5.0 引入 Spark 3.5.2 和增强的 ETL 性能

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

亚马逊在拉斯维加斯的re:Invent大会上发布了AWS Glue 5.0,旨在加速基于Apache Spark的ETL作业。新版本引入了Spark 3.5.2、Python 3.11和Java 17,提升了性能和安全性。Glue 5.0支持Apache Iceberg和Delta Lake等开放表格式,作业启动时间更快,自动分区修剪功能增强。与AWS Glue 4.0相比,性能提高58%,成本降低36%。

🎯

关键要点

  • 亚马逊在拉斯维加斯的re:Invent大会上发布了AWS Glue 5.0,旨在加速基于Apache Spark的ETL作业。

  • Glue 5.0引入了Spark 3.5.2、Python 3.11和Java 17,提升了性能和安全性。

  • 新版本支持Apache Iceberg、Delta Lake和Apache Hudi等开放表格式,作业启动时间更快,自动分区修剪功能增强。

  • 与AWS Glue 4.0相比,Glue 5.0的性能提高58%,成本降低36%。

  • Spark 3.5.2为Glue 5.0带来了显著改进,包括支持Arrow优化的Python UDF和Python用户定义的表函数。

  • Glue 5.0支持与SageMaker Lakehouse的原生集成,实现Amazon Redshift数据仓库和S3数据湖的统一访问。

  • Glue 5.0与Lake Formation集成,支持细粒度访问控制(FGAC),可在表、列和行级别控制数据湖资源的访问。

  • Glue 5.0现已在所有支持Glue的AWS区域普遍可用。

延伸问答

AWS Glue 5.0有哪些新特性?

AWS Glue 5.0引入了Spark 3.5.2、Python 3.11和Java 17,支持Apache Iceberg、Delta Lake和Apache Hudi等开放表格式,提升了性能和安全性。

AWS Glue 5.0的性能提升有多大?

与AWS Glue 4.0相比,Glue 5.0的性能提高了58%,成本降低了36%。

AWS Glue 5.0如何支持数据湖的访问控制?

Glue 5.0与Lake Formation集成,支持细粒度访问控制(FGAC),可在表、列和行级别控制数据湖资源的访问。

AWS Glue 5.0如何加速ETL作业?

Glue 5.0通过更快的作业启动时间和自动分区修剪功能来加速ETL作业。

AWS Glue 5.0与SageMaker的集成有什么优势?

Glue 5.0支持与SageMaker Lakehouse的原生集成,实现Amazon Redshift数据仓库和S3数据湖的统一访问。

AWS Glue 5.0的可用性如何?

Glue 5.0现已在所有支持Glue的AWS区域普遍可用。

➡️

继续阅读