本文介绍了视觉对话任务,通过图像、对话历史和问题,要求AI智能体与人类进行对话。提出了基于视觉的测试方法和二人聊天数据收集协议。利用多个编码器和解码器,超越了基准线,并评估了机器和人类在视觉对话任务上的性能差距。
完成下面两步后,将自动完成登录并继续当前操作。