小红花·文摘

本文探讨了视频问答中的挑战，现有方法在整合问题与视频帧方面存在不足。我们提出的局部-全球问知视频嵌入（LGQAVE）通过跨注意力机制和动态图转换器，显著提升了视频问答的准确性。