小红花·文摘

本研究提出了一种新型视觉表达方法，Visual Table，用于多模态大型语言模型。该模型通过层次化的视觉场景文本描述和对象为中心的描述，包括类别、属性和实例级别的知识。在多个基准测试中，该模型优于现有最先进的多模态大型语言模型。视觉表格作为独立的视觉表示时，该模型可以与甚至超过基于CLIP视觉嵌入的最先进的多模态大型语言模型。