本文探讨了视频问答中的挑战,现有方法在整合问题与视频帧方面存在不足。我们提出的局部-全球问知视频嵌入(LGQAVE)通过跨注意力机制和动态图转换器,显著提升了视频问答的准确性。
完成下面两步后,将自动完成登录并继续当前操作。