小红花·文摘

本研究提出了一种新方法——每层每头视觉标记修剪（PLPHP），旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率，显著提升解码速度18%，减少缓存大小，同时保持较小的性能损失。