AffectVisDial是一个大规模数据集,包含50,000个10轮的视觉对话,用于测试在视觉对话中理解情感形成的能力。该数据集涉及基于对话的问答、情感预测和情感解释生成等三个技能。作者训练并展示了基于最先进模型的情感视觉对话基准,并指出其模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。
完成下面两步后,将自动完成登录并继续当前操作。