EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的视觉-语言模型,通过采用样本级文本描述进行零样本分类,取得了显著的改进。在四个动态情感识别数据集上测试,该方法在下游任务中表现出与人类专家相当或更优的性能。
🎯
关键要点
-
该研究提出了一种新的视觉-语言模型。
-
模型采用样本级文本描述进行零样本分类。
-
在四个动态情感识别数据集上进行测试。
-
该方法在零样本视频情感识别方面表现出显著改进。
-
在精神健康症状估计等下游任务中,模型性能与人类专家相当或更优。
🏷️