CLIP-TD是一种自适应选择标记的蒸馏方法,适用于视觉-语言任务。在低量数据和领域迁移条件下,CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答任务上获得了最先进的性能。
本研究提出了一种名为CLIP-TD的方法,通过有针对性的蒸馏来适应每个实例的自适应选择标记。实验证明,CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答等任务中,在低量数据和领域迁移条件下取得了显著的增益,并达到了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。