DyMU:动态合并和虚拟解合并以提高视觉语言模型的效率
📝
内容提要
本研究针对视觉语言模型(VLMs)在计算效率上的不足,提出了一种名为DyMU的框架,能够在不增加训练成本的情况下动态降低计算负担。通过动态令牌合并和虚拟令牌解合并的创新方法,DyMU能够实现32%-85%的视觉令牌数量减少,同时在各类任务中保持较高的性能,极大增强了用户对计算成本的控制能力。
🏷️
标签
➡️