一身归宗:一种简单而有效的跨领域图预训练方法
LOUPE是一个fine-grained semantically aligned vision-language pre-training framework,通过博弈论交互的新视角学习到精细的语义对齐,并进一步提出了一个基于Uncertainty-Aware Shapley interaction的神经网络模块来高效地计算博弈论交互。实验表明,LOUPE在各种视觉-语言任务上均达到了最先进的性能。此外,LOUPE实现了无需任何对象级人员注释和微调的目标检测和视觉定位的竞争性能,同时也开启了一个新的方向,即从大规模原始图像文本数据中学习精细语义。
原文中文,约300字,阅读约需1分钟。