SPARO:用于视觉的稳健和组合式 Transformer 编码的选择性注意力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
SPARC是一种预训练多模态表示方法,通过序列损失和对比损失提高图像级和区域级任务的性能,同时改善模型准确性和生成图像描述的能力。
🎯
关键要点
- SPARC是一种预训练的多模态表示方法,名为SPARse Fine-grained Contrastive Alignment。
- SPARC结合了精细化的序列损失和对比损失,以编码全局和局部信息。
- 该方法在图像级任务(如分类)和区域级任务(如检索、目标检测和分割)上均显示出性能改善。
- SPARC还提高了模型的准确性和生成图像描述的能力。
➡️