EmoCLIP: 一种用于零样本视频人脸表情识别的视觉 - 语言方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的视觉-语言模型,通过采用样本级文本描述进行零样本分类,取得了显著的改进。在四个动态情感识别数据集上测试,该方法在下游任务中表现出与人类专家相当或更优的性能。

🎯

关键要点

  • 该研究提出了一种新的视觉-语言模型。
  • 模型采用样本级文本描述进行零样本分类。
  • 在四个动态情感识别数据集上进行测试。
  • 该方法在零样本视频情感识别方面表现出显著改进。
  • 在精神健康症状估计等下游任务中,模型性能与人类专家相当或更优。
➡️

继续阅读