MLIP: 高效多角度语言图像预训练与全面数据利用

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

该研究提出了一种数据选择方法,通过保留图像和标题的交叉协方差,提高了Contrastive Language-Image Pre-training模型的泛化性能。实验证明,该方法在ImageNet和其变体上的准确度超过了其他基线方法的2.7倍和1.4倍,并且在11个下游数据集中的平均准确度是其他基线方法的1.5倍。

原文中文,约300字,阅读约需1分钟。
阅读原文