亚马逊AWS官方博客 ·

使用 Amazon Athena 查询分析 Apache Paimon 数据

💡 原文中文，约9900字，阅读约需24分钟。

📝

内容提要

本文介绍了使用Amazon EMR和Apache Paimon构建流式数据湖的方法，通过Amazon Athena和Athena Federated Query对Apache Paimon表中的数据进行查询分析，以及使用Athena for Apache Spark进行交互式数据分析和探索。通过自定义的Data Source Connector，可以实现通过标准SQL查询Apache Paimon表中的数据，无需管理底层资源。通过这些方式，可以快速获得Apache Paimon中的业务洞察。

🎯

关键要点

本文介绍了使用Amazon EMR和Apache Paimon构建流式数据湖的方法。
使用Amazon Athena对Apache Paimon表中的数据进行查询分析，包括Athena for Apache Spark和Athena Federated Query。
Athena for Apache Spark允许用户进行交互式数据分析，无需管理底层计算资源。
用户可以通过Notebook环境提交Spark代码或SQL来处理数据。
Athena for Apache Spark支持Hive表格式和Apache Iceberg、Hudi、Delta Lake等非Hive表格式。
使用Glue Data Catalog可以方便地管理和查询Paimon数据库。
Athena Federated Query允许用户以标准SQL查询存储在Amazon S3中的数据。
用户可以通过自定义Data Source Connector实现对Apache Paimon表的查询。
构建Apache Paimon Data Source Connector需要实现MetadataHandler和RecordHandler接口。
部署Apache Paimon Data Source Connector时需使用AWS Lambda和Docker。
通过Athena Federated Query可以对Paimon数据进行聚合查询和统计分析。
两种查询方式均为Serverless架构，无需管理底层资源。
Athena for Spark支持Batch Read和Time Travel Query等功能。
Athena Federated Query支持分区减枝、Limited Scan和谓词下推等优化。

❓

延伸问答

如何使用 Amazon Athena 查询 Apache Paimon 数据？

可以通过 Athena for Apache Spark 或 Athena Federated Query 来查询 Apache Paimon 数据，前者支持交互式分析，后者允许使用标准 SQL 查询存储在 Amazon S3 中的数据。

Athena for Apache Spark 有哪些功能？

Athena for Apache Spark 支持交互式数据分析、Batch Read、Time Travel Query 和创建数据表等功能，用户可以通过 Notebook 提交 Spark 代码或 SQL 进行查询。

如何构建 Apache Paimon Data Source Connector？

构建 Apache Paimon Data Source Connector 需要实现 MetadataHandler 和 RecordHandler 接口，并使用 Athena Query Federation SDK 进行开发。

Athena Federated Query 的优势是什么？

Athena Federated Query 允许用户以标准 SQL 查询非结构化和半结构化数据，并支持分区减枝、Limited Scan 和谓词下推等优化，具有良好的开放能力。

使用 Glue Data Catalog 有什么好处？

使用 Glue Data Catalog 可以方便地管理和查询 Paimon 数据库，支持元数据的获取和查询，提升数据管理效率。

Athena for Apache Spark 和 Athena Federated Query 有什么区别？

Athena for Apache Spark 主要用于交互式数据分析，支持 Spark SQL，而 Athena Federated Query 允许跨数据源使用标准 SQL 查询，适用于非 S3 数据。

🏷️