Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种混合级指令注入策略(HICom),旨在降低多模态大语言模型处理视频帧的计算开销。HICom通过指令条件指导压缩,保留用户关注的信息。实验结果表明,HICom在减少令牌的同时,视频理解能力显著提升,性能平均提高2.43%,并节省了78.8%的令牌。
🎯
关键要点
- 提出了一种混合级指令注入策略(HICom),旨在降低多模态大语言模型处理视频帧的计算开销。
- HICom通过指令条件指导局部和全局层面的压缩,最大限度保留用户关注的信息。
- 实验结果表明,HICom在减少令牌的同时,显著提高了视频理解能力。
- 在三个选择题基准测试中,HICom的平均性能提升了2.43%。
- HICom相比于最先进的方法,节省了78.8%的令牌。
➡️