HiT: 基于分层 Transformers 的建筑物映射

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文提出了一种基于 Hierarchical Transformers 的建筑物映射方法 HiT,通过增加一个多边形头并行于分类和边界框回归头的两阶段检测结构实现了从高分辨率遥感影像中提取多边形建筑物的质量改进。实验表明,该方法在实例分割和多边形度量方面达到了最新的良好结果,并在复杂场景下表现出优越性和有效性。

🎯

关键要点

  • 深度学习方法在遥感影像中自动建筑物映射方面得到广泛研究。
  • 提出了一种基于 Hierarchical Transformers 的建筑物映射方法 HiT。
  • HiT 通过增加一个多边形头并行于分类和边界框回归头的两阶段检测结构实现质量改进。
  • 传统建筑物映射方法常导致复杂推断过程、低准确率和差泛化能力。
  • HiT 同时输出建筑物边界框和矢量多边形,并进行端到端的训练。
  • 多边形头采用编码 - 解码的 Transformer 架构,预测带有双向特点的序列化顶点。
  • 引入设计的双向多边形损失进行监督,编码器引入分层注意机制和卷积操作。
  • 在 CrowdAI 和 Inria 两个基准数据集上的实验表明,HiT 在实例分割和多边形度量方面表现优越。
  • 定性结果验证了 HiT 模型在复杂场景下的有效性。
➡️

继续阅读