小红花·文摘

本研究针对长视频理解中多模态模型的性能问题，特别是视觉和语言模态的上下文窗口差异，提出了一种无需重新训练的数据集方法。通过扩展视觉上下文窗口和引入渐进池化推理策略，有效降低内存消耗，同时保持重要空间信息，显著提升了性能。