通过视觉令牌撤回，提升多模态大型语言模型的快速推理能力

通过引入 Visual Tokens Withdrawal 模块以提升 Multimodal large language models 在快速推理方面的性能，通过分析注意力集中现象和信息迁移现象，我们发现在深层的 MLLMs 中不需要视觉特征信息，并通过判断 Kullback-Leibler 散度选择了合适的层进行视觉特征的提取操作，使得我们的方法能在维持性能的同时，减少超过 40% 的计算开销。

研究人员通过语言模型在多模态数据上取得了显著进展。LaVIT是一种将视觉和语言统一表示的模型，通过将非语言图像转换为离散标记的视觉分词器，可以处理图像和文本。实验证明，LaVIT在多个任务上的性能超过现有模型。

LaVIT 多模态数据大型语言模型性能视觉分词器语言模型