小红花·文摘

通过提取和利用事件查询和提供的视频中的事件特定信息，解决多模态大型语言模型中的事件级幻觉问题。在Charades-STA数据集上的评估表明，该研究提供了新的视角，并为评估多模态大型语言模型在时间相关问题上提供了一种定量可测量的方法。