本研究提出了InternVL-X,采用三种视觉令牌压缩方法,解决了多模态大语言模型在处理视觉令牌时的计算资源和时间需求过大的问题。研究表明,仅使用20%或更少的视觉令牌,InternVL-X在7个公共基准测试中实现了平均2.34%的性能提升。
本研究提出了一种名为语言引导视觉令牌修剪(LVPruning)的方法,旨在减少多模态大型语言模型的计算负担。该方法通过评估视觉令牌的重要性,能够将视觉令牌数量减少至多90%,仅导致约0.45%的性能损失,显示出良好的应用潜力。
本文介绍了一种新的模式转换器,通过卷积神经网络从输入图像中提取各种模式,并将其作为视觉令牌输入到后续的Transformer模型中,实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上,通过使用通用ResNet和Transformer模型,取得了最新的性能,并在ImageNet上取得了优异的结果。
完成下面两步后,将自动完成登录并继续当前操作。