小红花·文摘

本文综述了视觉问答（VQA）任务，比较了传统方法与常识知识的融合，评估了不同数据集的问答对。探讨了未来发展方向，强调结构化知识库与自然语言处理模型的结合，研究了零样本VQA的能力，提出了新模型和策略以提高性能，并探讨了逻辑组合问题的解决方案。