本研究提出了一种新方法,通过视觉上下文样本扩展和自我奖励对齐,解决多模态大型语言模型在理解长视频时的挑战。该方法结合不同关键帧组合,显著提高了模型在七个数据集上的表现和回答正确率。
完成下面两步后,将自动完成登录并继续当前操作。