Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了一种混合级指令注入策略(HICom),旨在降低多模态大语言模型处理视频帧的计算开销。HICom通过指令条件指导压缩,保留用户关注的信息。实验结果表明,HICom在减少令牌的同时,视频理解能力显著提升,性能平均提高2.43%,并节省了78.8%的令牌。

🎯

关键要点

  • 提出了一种混合级指令注入策略(HICom),旨在降低多模态大语言模型处理视频帧的计算开销。
  • HICom通过指令条件指导局部和全局层面的压缩,最大限度保留用户关注的信息。
  • 实验结果表明,HICom在减少令牌的同时,显著提高了视频理解能力。
  • 在三个选择题基准测试中,HICom的平均性能提升了2.43%。
  • HICom相比于最先进的方法,节省了78.8%的令牌。
➡️

继续阅读