该研究通过扩展数据集和模型架构,进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能。提出了RWKV-CLIP,通过引入多样化的描述生成框架,在多个下游任务中实现了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。