本研究提出VidCtx框架,旨在解决大型多模态模型在视频问答中的计算和内存限制。通过整合视觉信息与文本描述,提升问答的相关性和有效性,实验结果表明其在基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。