AU-vMAE:通过视频遮罩自编码器实现动作单元检测的知识引导

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本研究介绍了多种基于自监督学习的面部表情识别模型,强调了在数据稀缺情况下的有效性。通过对比学习、区域和时序辅助任务等方法,显著提升了面部动作单元(AU)检测的性能,尤其在多个数据集上取得了最先进的结果,有效解决了标签噪音和数据不平衡等挑战。

🎯

关键要点

  • 本研究介绍了一种使用自监督学习的面部表情识别模型 MAE-Face,能够在仅微调 1% 数据的情况下取得良好的 AU 检测和强度估计结果。
  • 提出了一种基于混合网络的面部动作单元检测方法,解决了空间表示、时间建模和 AU 相关性的问题。
  • 通过增强的对比学习框架,结合监督和自监督信号,解决了面部运动单元检测中的标签噪音和 AU 类型不平衡等挑战,取得了优于最先进方法的性能。
  • 提出了一种自监督对比学习方法,从未标注的面部视频中学习 AU 表示,显著减小了自监督和有监督方法之间的性能差距。
  • 介绍了一种从同步多视角视频进行自监督学习的方法,通过交叉视角重构任务注入几何信息,获得对视角变化的鲁棒性表示。
  • 提出了一种基于自监督学习的区域和时序辅助任务学习框架(RTATL),通过设计辅助任务捕捉 AU 的局部特征和运动线索,取得了最新的 AU 识别性能。
  • 基于深度学习和元学习的方法能够快速适应新任务,证明在少量标记样本下也能实现模型的适应。
  • 提出了一种新型细粒度全局表情表示编码器,优于现有方法,并在多个面部数据集上实现了最先进的性能。

延伸问答

MAE-Face模型的主要特点是什么?

MAE-Face模型使用自监督学习方法,在仅微调1%数据的情况下,能够取得良好的面部动作单元(AU)检测和强度估计结果。

如何解决面部动作单元检测中的标签噪音问题?

通过引入增强的对比学习框架,结合监督和自监督信号,采用样本采样、重加权策略等方法,有效解决了标签噪音和AU类型不平衡的问题。

自监督对比学习方法的优势是什么?

自监督对比学习方法能够从未标注的面部视频中学习AU表示,显著减小自监督和有监督方法之间的性能差距,解决数据稀缺问题。

区域和时序辅助任务学习框架(RTATL)是如何工作的?

RTATL框架通过设计辅助任务,如RoI修复和光流估计,捕捉AU的局部特征和运动线索,从而提升AU识别性能。

多视角视频如何帮助面部表情识别?

多视角视频通过交叉视角重构任务注入几何信息,增强模型对视角变化的鲁棒性,从而改善面部表情识别的效果。

该研究在数据集上的表现如何?

研究在NTU-60、NTU-120和ETRI数据集上报告了最先进的结果,并在其他数据集上进行了迁移学习,证明了方法的鲁棒性。

➡️

继续阅读