Dask-GeoPandas 空间分区性能

💡 原文英文,约900词,阅读约需4分钟。
📝

内容提要

昨天一所大学联系我们,他们在使用我们在Planetary Computer上托管的Microsoft Building Footprints数据集时遇到了性能问题。他们想获取土耳其一小部分的建筑物足迹,但注意到性能相对较慢,似乎读取了很多数据。本文详细介绍了我们如何调试发生了什么,以及我们采取的步骤来解决问题。我们重新收集了一些新的ms-buildings STAC项目,它们是空间分区的,这样查询就会非常快:只需加载少量数据即可。我们使用Dask来加速Dask,从而将元数据读取时间从30秒降低到30秒(使用更多工作者会更快)。

🎯

关键要点

  • 一所大学在使用Microsoft Building Footprints数据集时遇到性能问题。
  • 他们希望获取土耳其一小部分的建筑物足迹,但发现性能较慢。
  • 问题可能与空间分区有关,文件应按quadkey进行分区。
  • 初步测试显示读取元数据需要16秒,读取数据并裁剪到感兴趣区域需要60秒。
  • 发现数据并未按空间分区,导致性能下降。
  • 重新收集了新的ms-buildings STAC项目后,读取数据的速度有了显著提升。
  • 读取元数据的时间从56秒降至30秒,但仍需改进。
  • 使用Dask并行化读取元数据以加速处理。
  • 通过并行读取每个分区的元数据,最终将读取时间降低到30秒。
  • 未来需要考虑更广泛的解决方案来处理元数据访问问题,例如使用Apache Iceberg。
🏷️

标签

➡️

继续阅读