LocCa:具有位置感知字幕的视觉预训练

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为LocTex的计算机视觉方法,利用低成本的本地化文本标注和鼠标轨迹,提供粗略的本地化信号,减少标注数据的数量。LocTex学习到的视觉特征可以应用于各种下游视觉任务,并在COCO实例分割上表现出较高的性能。在PASCAL VOC图像分类任务上,LocTex比以前的预训练方法提高了约4%的准确性。

🎯

关键要点

  • 提出了一种名为LocTex的计算机视觉方法。
  • LocTex利用低成本的本地化文本标注和鼠标轨迹,提供粗略的本地化信号。
  • 该方法减少了标注数据的数量。
  • LocTex学习到的视觉特征可以应用于各种下游视觉任务。
  • 在COCO实例分割上,LocTex表现出较高的性能。
  • 在PASCAL VOC图像分类任务上,LocTex比以前的预训练方法提高了约4%的准确性。
  • LocTex可以将预训练数据集的大小缩小10倍,目标数据集的大小缩小2倍。
➡️

继续阅读