Harmony: 一种联合自监督和弱监督框架,用于学习通用的视觉表示
原文中文,约400字,阅读约需1分钟。发表于: 。本研究中,我们提出了一种名为 Harmony 的框架,它结合了视觉 - 语言训练和辨别性自监督以及生成性自监督,以学习能够在视觉下游任务中被泛化的视觉特征。我们全面评估了 Harmony 在各种视觉下游任务上的性能,并发现它在 ImageNet-1k 上的微调和零样本分类、ADE20K 上的语义分割以及 MS-COCO 上的目标检测和实例分割等任务中明显优于基线 CLIP...
本研究提出了名为Harmony的框架,结合了视觉-语言训练和自监督学习,能在各种视觉任务中表现优异。与其他方法相比,Harmony在评估任务上表现更好。