该文章介绍了一种利用答案提取方法解决时间相关问题的工作,并提出了一个新的数据集和深度学习模型。评估结果显示,该模型适应处理时间相关问题,但需要直接从文本中提取答案。
通过提取和利用事件查询和提供的视频中的事件特定信息,解决多模态大型语言模型中的事件级幻觉问题。在Charades-STA数据集上的评估表明,该研究提供了新的视角,并为评估多模态大型语言模型在时间相关问题上提供了一种定量可测量的方法。
完成下面两步后,将自动完成登录并继续当前操作。