LoftUp:为视觉基础模型学习基于坐标的特征上采样器
📝
内容提要
本研究解决了视觉基础模型(VFM)在像素级理解应用中的特征分辨率限制问题,提出了一种新的坐标-based交叉注意力变换器架构,以整合高分辨率图像和低分辨率特征,实现高质量特征的生成。此外,利用类无关掩码和自蒸馏构建高分辨率伪真值特征,显著改进了现有特征上采样技术的效果,展示了更出色的下游任务性能。
➡️
本研究解决了视觉基础模型(VFM)在像素级理解应用中的特征分辨率限制问题,提出了一种新的坐标-based交叉注意力变换器架构,以整合高分辨率图像和低分辨率特征,实现高质量特征的生成。此外,利用类无关掩码和自蒸馏构建高分辨率伪真值特征,显著改进了现有特征上采样技术的效果,展示了更出色的下游任务性能。