小红花·文摘

本文研究了上下文语言模型与视觉表示的关系，发现语言表示能够有效检索对象类别，文本上下文在此过程中起着重要作用。提出了多种视觉增强方法和工具，如ELEVATER和VaLM，以提升语言模型的视觉能力，并探讨了偏见问题及其解决策略，强调了多模态大型语言模型在视觉语言表示学习中的潜力。