小红花·文摘

本文介绍了一种名为VGT的视频图形转换器模型，旨在解决视频问答中的动态关系推理问题。VGT通过动态图形变换器模块编码视频，并结合视频和文本变换器进行问答，在多项视频语言任务中表现出色。此外，研究提出的多级对齐训练方案显著提高了视频与语言的语义对齐效果。