内容提要
亚马逊在拉斯维加斯的re:Invent大会上发布了AWS Glue 5.0,旨在加速基于Apache Spark的ETL作业。新版本引入了Spark 3.5.2、Python 3.11和Java 17,提升了性能和安全性。Glue 5.0支持Apache Iceberg和Delta Lake等开放表格式,作业启动时间更快,自动分区修剪功能增强。与AWS Glue 4.0相比,性能提高58%,成本降低36%。
关键要点
-
亚马逊在拉斯维加斯的re:Invent大会上发布了AWS Glue 5.0,旨在加速基于Apache Spark的ETL作业。
-
Glue 5.0引入了Spark 3.5.2、Python 3.11和Java 17,提升了性能和安全性。
-
新版本支持Apache Iceberg、Delta Lake和Apache Hudi等开放表格式,作业启动时间更快,自动分区修剪功能增强。
-
与AWS Glue 4.0相比,Glue 5.0的性能提高58%,成本降低36%。
-
Spark 3.5.2为Glue 5.0带来了显著改进,包括支持Arrow优化的Python UDF和Python用户定义的表函数。
-
Glue 5.0支持与SageMaker Lakehouse的原生集成,实现Amazon Redshift数据仓库和S3数据湖的统一访问。
-
Glue 5.0与Lake Formation集成,支持细粒度访问控制(FGAC),可在表、列和行级别控制数据湖资源的访问。
-
Glue 5.0现已在所有支持Glue的AWS区域普遍可用。
延伸问答
AWS Glue 5.0有哪些新特性?
AWS Glue 5.0引入了Spark 3.5.2、Python 3.11和Java 17,支持Apache Iceberg、Delta Lake和Apache Hudi等开放表格式,提升了性能和安全性。
AWS Glue 5.0的性能提升有多大?
与AWS Glue 4.0相比,Glue 5.0的性能提高了58%,成本降低了36%。
AWS Glue 5.0如何支持数据湖的访问控制?
Glue 5.0与Lake Formation集成,支持细粒度访问控制(FGAC),可在表、列和行级别控制数据湖资源的访问。
AWS Glue 5.0如何加速ETL作业?
Glue 5.0通过更快的作业启动时间和自动分区修剪功能来加速ETL作业。
AWS Glue 5.0与SageMaker的集成有什么优势?
Glue 5.0支持与SageMaker Lakehouse的原生集成,实现Amazon Redshift数据仓库和S3数据湖的统一访问。
AWS Glue 5.0的可用性如何?
Glue 5.0现已在所有支持Glue的AWS区域普遍可用。