小红花·文摘

本文介绍了一种视觉到语言的分词器（V2T Tokenizer），通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成外语。该方法具备视觉理解能力，可进行图像去噪和恢复等任务，无需微调。实验证实了该方法的有效性。