本文介绍了视觉对话任务,提出了一种基于视觉的通用测试方法和新的聊天数据收集协议。研究利用多种编码器和解码器,超越了复杂基准线,展示了“视觉聊天机器人”的性能。同时,介绍了交互式图像检索方法和新数据集PhotoChat,促进了图像文本建模研究,解决了有趣的现实问题。
本文介绍了视觉对话任务及其测试方法和数据收集协议,采用多种编码器和解码器超越了基准线,演示了第一款“视觉聊天机器人”,并通过基于检索的评估协议Quantify了机器和人类在视觉对话任务上的性能差距。
完成下面两步后,将自动完成登录并继续当前操作。