小红花·文摘

本文介绍了一种新方法，使大型语言模型（LLM）能够处理可缩放矢量图形（SVG）格式的图像。该方法通过视觉到语言的分词器（V2T Tokenizer）实现视觉理解，无需微调。研究表明，LLM在图像识别、描述和视觉问题回答等任务中表现出色，具有良好的鲁棒性和自回归图像恢复能力。