ViTamin:设计可扩展的视觉模型在视觉语言时代
原文中文,约200字,阅读约需1分钟。发表于: 。该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
该论文介绍了一种名为multi-grained vision language pre-training的视觉语言联合预训练方法,以及一个名为X$^2$-VLM的预训练模型。该方法在多个粒度上学习视觉语言对齐,实现了图像文本任务和视频文本任务之间的良好平衡。该模型具有高可转移性,适用于任何语言或领域。