小红花·文摘

本文探讨自由和开放的视觉问答（VQA）任务，研究基于深度学习的模型表现及其缺陷，提出新模型和数据集以提升盲人用户的视觉问题解决能力，关注视觉与语言的互动及模型的可解释性，推动未来发展方向。