LocCa：具有位置感知字幕的视觉预训练

在本文中，我们提出了一种简单的可感知位置的图像预训练方法（LocCa），它使用一个简单的图像标题生成任务接口，在图像像素输入的条件下教导模型以读取丰富的信息，如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力，我们展示了图像标题生成器在预训练期间可以轻松处理多个任务。我们的实验证明 LocCa 在本地化底层任务上明显优于标准的标题生成器，并且在整体任务上保持可比较的性能。

本文介绍了一种名为LocTex的计算机视觉方法，利用低成本的本地化文本标注和鼠标轨迹，提供粗略的本地化信号，减少标注数据的数量。LocTex学习到的视觉特征可以应用于各种下游视觉任务，并在COCO实例分割上表现出较高的性能。在PASCAL VOC图像分类任务上，LocTex比以前的预训练方法提高了约4%的准确性。

LocTex 本地化文本标注视觉特征计算机视觉方法鼠标轨迹