SIEVE: 利用图像字幕模型进行多模态数据集修剪

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了SIEVE方法,用于评估图像-文本对的一致性,并在大规模和中等规模的数据集上取得了最先进的性能。该方法使用预训练的图像-文本模型生成的合成标题进行裁剪,以解决现有方法的限制。

➡️

继续阅读