本文提出了一种混合级指令注入策略(HICom),旨在降低多模态大语言模型处理视频帧的计算开销。HICom通过指令条件指导压缩,保留用户关注的信息。实验结果表明,HICom在减少令牌的同时,视频理解能力显著提升,性能平均提高2.43%,并节省了78.8%的令牌。
完成下面两步后,将自动完成登录并继续当前操作。