该文介绍了SIEVE方法,用于评估图像-文本对的一致性,并在大规模和中等规模的数据集上取得了最先进的性能。该方法使用预训练的图像-文本模型生成的合成标题进行裁剪,以解决现有方法的限制。
完成下面两步后,将自动完成登录并继续当前操作。