Dask-GeoPandas 空间分区性能
💡
原文英文,约900词,阅读约需4分钟。
📝
内容提要
昨天一所大学联系我们,他们在使用我们在Planetary Computer上托管的Microsoft Building Footprints数据集时遇到了性能问题。他们想获取土耳其一小部分的建筑物足迹,但注意到性能相对较慢,似乎读取了很多数据。本文详细介绍了我们如何调试发生了什么,以及我们采取的步骤来解决问题。我们重新收集了一些新的ms-buildings STAC项目,它们是空间分区的,这样查询就会非常快:只需加载少量数据即可。我们使用Dask来加速Dask,从而将元数据读取时间从30秒降低到30秒(使用更多工作者会更快)。
🎯
关键要点
- 一所大学在使用Microsoft Building Footprints数据集时遇到性能问题。
- 他们希望获取土耳其一小部分的建筑物足迹,但发现性能较慢。
- 问题可能与空间分区有关,文件应按quadkey进行分区。
- 初步测试显示读取元数据需要16秒,读取数据并裁剪到感兴趣区域需要60秒。
- 发现数据并未按空间分区,导致性能下降。
- 重新收集了新的ms-buildings STAC项目后,读取数据的速度有了显著提升。
- 读取元数据的时间从56秒降至30秒,但仍需改进。
- 使用Dask并行化读取元数据以加速处理。
- 通过并行读取每个分区的元数据,最终将读取时间降低到30秒。
- 未来需要考虑更广泛的解决方案来处理元数据访问问题,例如使用Apache Iceberg。
🏷️
标签
➡️