EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的视觉-语言模型,通过采用样本级文本描述进行零样本分类,取得了显著的改进。在四个动态情感识别数据集上测试,该方法在下游任务中表现出与人类专家相当或更优的性能。
🎯
关键要点
- 该研究提出了一种新的视觉-语言模型。
- 模型采用样本级文本描述进行零样本分类。
- 在四个动态情感识别数据集上进行测试。
- 该方法在零样本视频情感识别方面表现出显著改进。
- 在精神健康症状估计等下游任务中,模型性能与人类专家相当或更优。
➡️