VITATECS:用于视频语言模型的时间概念理解诊断数据集 通过引入细粒度的自然语言中的时间概念的分类,利用反事实视频描述来解开静态和时间信息之间的相关性,并评估典型的视频语言理解模型,揭示了对于视频语言研究中时间元素的更大重视的需求。 本文研究了视觉和语言领域的两个最新数据集,NewsVideoQA和M4-ViteVQA,用于视频问答。实验结果显示,BERT-QA在这两个数据集上的表现与原始方法相当。研究还探讨了域适应方面的问题、挑战和潜在好处。 BERT-QA 域适应 数据集 视觉和语言领域 视频问答 语言模型