小红花·文摘

本研究提出了一种新方法，通过视觉上下文样本扩展和自我奖励对齐，解决多模态大型语言模型在理解长视频时的挑战。该方法结合不同关键帧组合，显著提高了模型在七个数据集上的表现和回答正确率。