小红花·文摘

本研究提出了一种新型视觉表达方法Visual Table，用于多模态大型语言模型，通过层次化的视觉场景文本描述和对象为中心的描述，生成的视觉表格作为额外的视觉表示，使模型在多个基准测试中优于现有模型。独立使用视觉表格时，模型可与基于CLIP视觉嵌入的最先进模型相媲美。