Atlas Data Federation (ADF)开发了一种名为Online Shredder的新方法,可以将文档流一次性剪切成列格式,并并行构建模式。该方法提高了parquet-writer的效率,吞吐量提高了2倍,没有任何工作负载的性能变差。技术挑战是支持MongoDB的灵活模式,并保持无损parquet发射的正确信息。剪切过程使用定义和重复级别来消除剪切值的歧义,并使用惰性同步技术来回填所需的def-levels。该工作为parquet-emission支持奠定了坚实的基础,并将最大客户的parquet-writing吞吐量提高了一倍。
完成下面两步后,将自动完成登录并继续当前操作。