MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

该研究提出了一种数据选择方法，通过保留图像和标题的交叉协方差，提高了Contrastive Language-Image Pre-training模型的泛化性能。实验证明，该方法在ImageNet和其变体上的准确度超过了其他基线方法的2.7倍和1.4倍，并且在11个下游数据集中的平均准确度是其他基线方法的1.5倍。