本研究提出了一种金字塔滴落策略,旨在降低大型视觉语言模型(LVLMs)中图像输入的计算成本。通过选择性丢弃部分图像标记,该方法显著提高了训练和推理效率,训练时间加速40%,推理计算加速55%,仅造成轻微性能损失。
完成下面两步后,将自动完成登录并继续当前操作。