更好的语言模型是否具有更清晰的视觉?
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了文本大型语言模型(LLMs)在理解视觉世界方面的能力不足的问题。提出了视觉文本表示基准(ViTeRB)以评估语言模型与视觉世界的对齐程度,并发现大规模解码器模型在视觉上下文中表现优异。此外,开发的ShareLock模型在极少的数据和计算资源下实现了高达51%的ImageNet准确率,显著低于传统方法的需求。
研究发现,在多模态大型语言模型中,CLIP的浅层特征在细粒度任务中有优势。未经过文本-图像对齐预训练的DINO加上MLP层后表现优于CLIP。基于此,提出COMM策略,通过融合CLIP和DINO的特征提升视觉能力,实验结果显示其性能优越。