ALIP: 自适应语言图像预训练与合成字幕
原文中文,约300字,阅读约需1分钟。发表于: 。通过生成综合信息的合成字幕并动态调整样本权重,自适应对比损失有效降低噪音数据的影响并增强预训练数据效率,Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证,并在多个下游任务中取得了最先进的性能,包括零样本图像 - 文本检索和线性探测。
通过合成字幕和动态调整样本权重,ALIP有效降低噪音数据的影响并增强预训练数据效率。在不同规模模型和预训练数据集上进行了实验验证,并在零样本图像-文本检索和线性探测等多个下游任务中取得了最先进的性能。