小红花·文摘

本研究提出了VisionZip方法，旨在解决视觉语言模型中的视觉标记冗余问题。通过选择信息丰富的标记，VisionZip显著提高了模型的效率和性能，性能提升至少5%，推理速度显著提高，预填充时间提升8倍，具有广泛的应用潜力。