第六届 ABAW 挑战赛上基于视觉语言模型的零样本复合表达识别
原文约400字/词,阅读约需1分钟。发表于: 。利用预训练的视觉语言模型结合传统的 CNN 网络,提出了一种用于识别合成表情的零样本方法。
本文介绍了一种新的连续学习方法,通过知识蒸馏和预测排序记忆重放,能够准确识别使用少量训练样本的新复合表情类别。使用GradCAM可视化技术展示了基本和复合面部表情之间的关系,并通过知识蒸馏和记忆重放利用这种关系。该方法在复杂面部表情识别的连续学习方面达到了当前最新水平,新类别的整体准确率为74.28%。与非连续学习方法相比,使用连续学习实现复杂面部表情识别能够获得更好的性能,提高了13.95%的非连续学习方法的最新水平。该研究首次将少样本学习应用于复杂面部表情识别,每个表情类别使用单个训练样本实现了100%的准确率。