VDialogUE: 一个统一的可视对话评估基准

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

AffectVisDial是一个大规模数据集,包含50,000个10轮的视觉对话,用于测试在视觉对话中理解情感形成的能力。该数据集涉及基于对话的问答、情感预测和情感解释生成等三个技能。作者训练并展示了基于最先进模型的情感视觉对话基准,并指出其模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。

🎯

关键要点

  • AffectVisDial是一个包含50,000个10轮视觉对话的大规模数据集。
  • 该数据集用于测试在视觉对话中理解情感形成的能力。
  • 任务涉及三个技能:基于对话的问答、情感预测和情感解释生成。
  • 作者收集了27,180个工作小时的数据,并解释了数据集的设计决策。
  • 展示了基于最先进模型的情感视觉对话基准。
  • 模型生成的回答显示出对视觉对话中情感推理能力的希望结果。
➡️

继续阅读