本文探讨自由和开放的视觉问答(VQA)任务,研究基于深度学习的模型表现及其缺陷,提出新模型和数据集以提升盲人用户的视觉问题解决能力,关注视觉与语言的互动及模型的可解释性,推动未来发展方向。
完成下面两步后,将自动完成登录并继续当前操作。