该研究解决了视觉语言模型推理过程中高计算资源需求的问题,尤其是在视觉输入令牌的重要性低于文本令牌的情况。通过提出一种优化的令牌剪枝方法TopV,该方法在不依赖注意力得分的情况下进行有效的视觉令牌选择,并与FlashAttention兼容,显著提高了剪枝效率和推理速度。实验结果表明,该方法优于先前的剪枝策略,对提升多模态模型的实际应用具有重要影响。
该研究提出了一种优化的令牌剪枝方法TopV,有效解决了视觉语言模型推理中的高计算资源需求问题,显著提升了剪枝效率和推理速度,对多模态模型应用具有重要意义。