新加坡南洋理工大学的LMMs-Lab团队与其他机构的研究人员共同开发了一种名为LongVA的长视频模型,能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中取得了很好的成绩。研究团队通过扩展语言模型的上下文能力,成功将这种能力传递到视觉模态上,无需进行长视频训练。他们还提出了一种名为Visual Needle-In-A-Haystack的基准测试,证明了LongVA在视觉大海捞针测试中的优秀表现。
完成下面两步后,将自动完成登录并继续当前操作。