更好的语言模型是否具有更清晰的视觉?

本研究解决了文本大型语言模型（LLMs）在理解视觉世界方面的能力不足的问题。提出了视觉文本表示基准（ViTeRB）以评估语言模型与视觉世界的对齐程度，并发现大规模解码器模型在视觉上下文中表现优异。此外，开发的ShareLock模型在极少的数据和计算资源下实现了高达51%的ImageNet准确率，显著低于传统方法的需求。

研究发现，在多模态大型语言模型中，CLIP的浅层特征在细粒度任务中有优势。未经过文本-图像对齐预训练的DINO加上MLP层后表现优于CLIP。基于此，提出COMM策略，通过融合CLIP和DINO的特征提升视觉能力，实验结果显示其性能优越。

CLIP COMM策略 DINO 多模态视觉编码器语言模型