本文介绍了一种视觉到语言的分词器(V2T Tokenizer),通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成外语。该方法具备视觉理解能力,可进行图像去噪和恢复等任务,无需微调。实验证实了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。