一身归宗:一种简单而有效的跨领域图预训练方法
原文中文,约300字,阅读约需1分钟。发表于: 。利用多个图数据集进行预训练来提高少样本学习的有效性,通过融合各异的图数据集来提取和转移有意义的知识到目标任务,为图基础模型领域做出开创性贡献。
LOUPE是一个fine-grained semantically aligned vision-language pre-training framework,通过博弈论交互的新视角学习到精细的语义对齐,并进一步提出了一个基于Uncertainty-Aware Shapley interaction的神经网络模块来高效地计算博弈论交互。实验表明,LOUPE在各种视觉-语言任务上均达到了最先进的性能。此外,LOUPE实现了无需任何对象级人员注释和微调的目标检测和视觉定位的竞争性能,同时也开启了一个新的方向,即从大规模原始图像文本数据中学习精细语义。