MLIP: 高效多角度语言图像预训练与全面数据利用
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。
该研究提出了一种数据选择方法,通过保留图像和标题的交叉协方差,提高了Contrastive Language-Image Pre-training模型的泛化性能。实验证明,该方法在ImageNet和其变体上的准确度超过了其他基线方法的2.7倍和1.4倍,并且在11个下游数据集中的平均准确度是其他基线方法的1.5倍。