本文介绍了一种可伸缩性方法,通过从视觉-语言基准中提取的多样化特征,测量它们与目标模型输出的相关性。作者确认了之前发现的CLIP表现类似于词袋模型,并在名词和动词上表现更好。
完成下面两步后,将自动完成登录并继续当前操作。