小红花·文摘

本研究提出了一种金字塔滴落策略，旨在降低大型视觉语言模型（LVLMs）中图像输入的计算成本。通过选择性丢弃部分图像标记，该方法显著提高了训练和推理效率，训练时间加速40%，推理计算加速55%，仅造成轻微性能损失。