MLIP: 高效多角度语言图像预训练与全面数据利用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种数据选择方法,通过保留图像和标题的交叉协方差,提高了Contrastive Language-Image Pre-training模型的泛化性能。实验证明,该方法在ImageNet和其变体上的准确度超过了其他基线方法的2.7倍和1.4倍,并且在11个下游数据集中的平均准确度是其他基线方法的1.5倍。

🎯

关键要点

  • 提出了一种数据选择方法,通过保留图像和标题的交叉协方差。
  • 该方法提高了Contrastive Language-Image Pre-training模型的泛化性能。
  • 实验证明,该方法在ImageNet和其变体上的准确度超过其他基线方法的2.7倍和1.4倍。
  • 在11个下游数据集中,该方法的平均准确度是其他基线方法的1.5倍。
➡️

继续阅读