本文介绍了一种新方法,使大型语言模型(LLM)能够处理可缩放矢量图形(SVG)格式的图像。该方法通过视觉到语言的分词器(V2T Tokenizer)实现视觉理解,无需微调。研究表明,LLM在图像识别、描述和视觉问题回答等任务中表现出色,具有良好的鲁棒性和自回归图像恢复能力。
完成下面两步后,将自动完成登录并继续当前操作。