ByteByteGo Newsletter ·

存储2000亿实体：Notion的数据湖项目

💡 原文英文，约2200词，阅读约需8分钟。

📝

内容提要

Notion在2021年面临数据快速增长，构建了新的数据湖以应对挑战。通过使用Kafka和Apache Hudi，Notion实现了高效的数据处理和存储，显著降低了成本和延迟，支持AI功能的推出。

🎯

🔎

Notion在2021年面临数据量迅速增长的挑战，数据从20亿块激增至2024年的200亿块。为了应对这一变化，Notion决定构建数据湖，以支持更高效的数据处理和存储。这一转变不仅是为了满足用户需求，也是为了为未来的AI功能奠定基础。

Notion选择使用S3作为数据存储库，并采用Apache Hudi和Spark进行数据处理。这些技术的选择使得数据的增量摄取和处理更加高效，降低了成本和延迟。尤其是在处理更新频繁的数据时，Hudi的性能表现尤为突出，适应了Notion的业务需求。

通过新数据湖的实施，Notion在2022年节省了超过100万美元的成本，并在后续年份实现了更高的节省。此外，数据摄取时间从超过一天缩短至几分钟或几小时，极大提升了数据处理的效率。这些改进为Notion的持续发展提供了强有力的支持。

❓

Notion通过构建新的数据湖，使用Kafka和Apache Hudi来高效处理和存储数据，从而应对数据快速增长的挑战。

Notion的数据量预计在2024年将超过2000亿块。

Notion选择S3作为数据存储库，因为它能够存储大量数据，并且支持低成本的数据处理引擎如Spark。

Notion的新数据湖项目在2022年节省了超过100万美元的成本，并在2023年和2024年实现了更高的节省。

Notion通过采用增量数据摄取和混合设计，使用Kafka和Apache Hudi来提高数据处理性能和降低成本。

Notion在数据湖项目中使用了Kafka、Apache Hudi和Spark等技术。

🏷️