VoCo-LLaMA:面向大型语言模型的视觉压缩
原文中文,约300字,阅读约需1分钟。发表于: 。基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间相关性,在多模态应用中具有广泛的潜力。
本文介绍了一种视觉到语言的分词器(V2T Tokenizer),通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成外语。该方法具备视觉理解能力,可进行图像去噪和恢复等任务,无需微调。实验证实了该方法的有效性。