MLIP: 高效多角度语言图像预训练与全面数据利用
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种数据选择方法,通过保留图像和标题的交叉协方差,提高了Contrastive Language-Image Pre-training模型的泛化性能。实验证明,该方法在ImageNet和其变体上的准确度超过了其他基线方法的2.7倍和1.4倍,并且在11个下游数据集中的平均准确度是其他基线方法的1.5倍。
🎯
关键要点
- 提出了一种数据选择方法,通过保留图像和标题的交叉协方差。
- 该方法提高了Contrastive Language-Image Pre-training模型的泛化性能。
- 实验证明,该方法在ImageNet和其变体上的准确度超过其他基线方法的2.7倍和1.4倍。
- 在11个下游数据集中,该方法的平均准确度是其他基线方法的1.5倍。
➡️