本文回顾了视觉+语言领域中的多个任务和模型,并将其分为区分性游戏、生成性游戏和交互式游戏三类。研究表明,未来的工作应该专注于交互式游戏,因为自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的。
完成下面两步后,将自动完成登录并继续当前操作。