本研究针对长视频理解中多模态模型的性能问题,特别是视觉和语言模态的上下文窗口差异,提出了一种无需重新训练的数据集方法。通过扩展视觉上下文窗口和引入渐进池化推理策略,有效降低内存消耗,同时保持重要空间信息,显著提升了性能。
完成下面两步后,将自动完成登录并继续当前操作。