使用图像-文本模型预训练的数据集来裁剪模型是成功的,但存在限制。为解决这些问题,提出了一种名为SIEVE的方法,使用合成标题评估图像-文本对的一致性,并在大规模和中等规模的数据集上取得了最先进的性能。
研究人员引入了MobileCLIP,一种新的高效图像-文本模型系列,通过多模态增强训练方法实现了零样本分类和检索任务的新的最佳延迟-准确性权衡。
完成下面两步后,将自动完成登录并继续当前操作。