克服实现真正客户360度视图的最大障碍:使用MongoDB Atlas和Dataworkz

克服实现真正客户360度视图的最大障碍:使用MongoDB Atlas和Dataworkz

💡 原文英文,约4100词,阅读约需15分钟。
📝

内容提要

Atlas Data Federation (ADF)开发了一种名为Online Shredder的新方法,可以将文档流一次性剪切成列格式,并并行构建模式。该方法提高了parquet-writer的效率,吞吐量提高了2倍,没有任何工作负载的性能变差。技术挑战是支持MongoDB的灵活模式,并保持无损parquet发射的正确信息。剪切过程使用定义和重复级别来消除剪切值的歧义,并使用惰性同步技术来回填所需的def-levels。该工作为parquet-emission支持奠定了坚实的基础,并将最大客户的parquet-writing吞吐量提高了一倍。

🎯

关键要点

  • Atlas Data Federation (ADF) 开发了一种名为 Online Shredder 的新方法,能够将文档流一次性剪切成列格式。
  • 该方法提高了 parquet-writer 的效率,吞吐量提高了 2 倍,且没有任何工作负载的性能变差。
  • 技术挑战在于支持 MongoDB 的灵活模式,并保持无损 parquet 发射的正确信息。
  • 剪切过程使用定义和重复级别来消除剪切值的歧义,并使用惰性同步技术来回填所需的定义级别。
  • 新方法通过单次处理文档流并并行构建模式,解决了传统方法的两次扫描和性能瓶颈问题。
  • 在线剪切器的设计支持 MongoDB 的灵活模式,确保在转换过程中保持结构元数据的正确性。
  • 定义级别和重复级别用于确保在重组文档时能够正确恢复原始数据结构。
  • 新方法的实施为 parquet-emission 支持奠定了坚实的基础,并显著提高了客户的 parquet-writing 吞吐量。
➡️

继续阅读