VLTP:面向任务的视觉-语言引导令牌修剪
发表于: 。本文针对任务导向分割中的计算复杂性问题,提出了一种新颖的视觉-语言引导令牌修剪机制(VLTP)。该方法通过引入多模态大型语言模型,引导选择与推理任务相关的图像令牌,从而在不显著降级模型性能的情况下,减少约25%的计算成本。实验结果表明,此方法在节省计算资源的同时,有效保持了任务精准度。
本文针对任务导向分割中的计算复杂性问题,提出了一种新颖的视觉-语言引导令牌修剪机制(VLTP)。该方法通过引入多模态大型语言模型,引导选择与推理任务相关的图像令牌,从而在不显著降级模型性能的情况下,减少约25%的计算成本。实验结果表明,此方法在节省计算资源的同时,有效保持了任务精准度。