小红花·文摘

本研究提出了VidCtx框架，旨在解决大型多模态模型在视频问答中的计算和内存限制。通过整合视觉信息和上下文文本，VidCtx显著提高了问答的相关性和有效性，实验结果表明其在视频问答基准测试中表现优异，具有良好的应用潜力。