小红花·文摘

本文介绍了一种名为VDLM的模型，旨在提升大型视觉语言模型在二维矢量图形推理中的表现。通过使用可伸缩矢量图形（SVG），VDLM能够更好地处理视觉细节，增强零样本性能。同时，研究评估了该模型在图表理解和视频对齐等任务中的优势与局限性，强调了进一步改进的必要性。