小红花·文摘

Apache Paimon 是一个开源数据湖表格式，支持实时流式数据处理。用户可以通过 Amazon Managed Service for Apache Flink 无服务器地运行 Paimon CDC Ingestion Job，将 MySQL、PostgreSQL、MongoDB 和 Kafka 的数据快速摄取到数据湖，并将元数据同步到 AWS Glue Data Catalog，以便使用 Athena 查询。

使用 Amazon Managed Service for Apache Flink 进行 Apache Paimon CDC 数据摄取

亚马逊AWS官方博客 · 2025-03-31T03:33:56Z

Apache Paimon是一种新型数据湖屋格式，专注于流处理，同时支持批处理。它内置合并机制，优化大规模写入，解决了Iceberg在流处理中的小文件碎片问题，具备取代Iceberg的潜力。

Apache Paimon 实验室：Flink 和 Trino

DEV Community · 2024-11-25T01:38:03Z

OpenDevin 是一个开源项目，旨在复制自主 AI 软件工程师 Devin，专注于代码生成和处理技术的改进，包含错误检测和代码库管理功能，并建立评估指标。Paimon 是一种湖格式架构，支持实时流式和批处理操作。VoiceCraft 实现了零样本语音编辑和文本转语音，提供先进性能。SaaS 起始套件基于 Next.js 和 Tailwind CSS，旨在节省开发时间。

AI 软件工程师！你的最佳编码搭档 | 开源日报 No.338

开源服务指南 · 2024-08-23T23:35:10Z

本文介绍了使用Amazon EMR和Apache Paimon构建流式数据湖的方法，通过Amazon Athena和Athena Federated Query对Apache Paimon表中的数据进行查询分析，以及使用Athena for Apache Spark进行交互式数据分析和探索。通过自定义的Data Source Connector，可以实现通过标准SQL查询Apache Paimon表中的数据，无需管理底层资源。通过这些方式，可以快速获得Apache Paimon中的业务洞察。

使用 Amazon Athena 查询分析 Apache Paimon 数据

亚马逊AWS官方博客 · 2024-04-03T02:49:21Z

本文介绍如何使用 Amazon EMR 和 Apache Paimon 构建流式数据湖，包括创建支持 Paimon 的集群、流式摄取数据、数据打宽、应用层数据流式写入和使用 Spark 进行数据查询。Paimon 具有独特的功能优势，并且能和 Amazon EMR 中的 Flink、Spark、Hive 组件，Athena Spark 以及 Amazon S3 等协同工作。

使用 Amazon EMR 和 Apache Paimon 构建流式数据湖

亚马逊AWS官方博客 · 2023-11-01T02:36:04Z

<<
<
1 (current)
>
>>