小红花·文摘

本文研究了视觉和语言领域的两个最新数据集，NewsVideoQA和M4-ViteVQA，用于视频问答。实验结果显示，BERT-QA在这两个数据集上的表现与原始方法相当。研究还探讨了域适应方面的问题、挑战和潜在好处。