大型多模态模型在广泛的视觉语言基准测试中表现出色,但在需要对底层视觉细节进行精确感知的任务中,常常遇到困难。为了解决这个问题,提出了一种名为VDLM的模型,它在二维矢量图形领域进行基于文本的推理。VDLM使用可伸缩矢量图形(SVG)进行精确的视觉描述,并通过预先训练的语言模型建立SVG和PVD之间的桥梁。VDLM具有更强的零样本性能,适用于各种基于二维矢量图形的低级多模态感知和推理任务。
完成下面两步后,将自动完成登录并继续当前操作。