Socratis:大型多模态模型是否具备情感意识?
原文中文,约300字,阅读约需1分钟。发表于: 。Socratis 是一个社会反应基准测试,用于注释图像 - 标题对中的多种情绪及其产生原因。通过对现有模型的评估,发现人类更喜欢人工撰写的情绪原因,这表明该任务相比标准生成任务更具挑战性。同时,大型视觉 - 语言模型的字幕度量标准也未能与人类偏好相关联。我们希望这些发现和我们的基准测试能够激发关于训练情感感知模型的进一步研究。
机器学习在视觉情感识别方面有潜力,但现有方法受限于小规模数据集。研究发现数据集偏见问题,提出基于Webly监督方法的解决方案,利用大量库存图像数据进行训练。结果显示,使用大规模图像数据集训练的模型具有更好的泛化能力,视觉表示在不同数据集上有潜力。