在目标导向的视觉对话中指出人类答案错误
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了视觉对话任务及其测试方法和数据收集协议,采用多种编码器和解码器超越了基准线,演示了第一款“视觉聊天机器人”,并通过基于检索的评估协议Quantify了机器和人类在视觉对话任务上的性能差距。
🎯
关键要点
-
介绍了视觉对话任务,要求 AI 以自然语言与人类对话。
-
提出了一种基于视觉的通用测试方法和二人聊天数据收集协议。
-
使用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等编码器,超越复杂基准线。
-
采用基于检索的评估协议,量化机器与人类在视觉对话任务上的性能差距。
-
演示了第一款 '视觉聊天机器人'。
➡️