BriefGPT - AI 论文速递 ·

AU-vMAE：通过视频遮罩自编码器实现动作单元检测的知识引导

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究介绍了多种基于自监督学习的面部表情识别模型，强调了在数据稀缺情况下的有效性。通过对比学习、区域和时序辅助任务等方法，显著提升了面部动作单元（AU）检测的性能，尤其在多个数据集上取得了最先进的结果，有效解决了标签噪音和数据不平衡等挑战。

🎯

❓

MAE-Face模型使用自监督学习方法，在仅微调1%数据的情况下，能够取得良好的面部动作单元（AU）检测和强度估计结果。

通过引入增强的对比学习框架，结合监督和自监督信号，采用样本采样、重加权策略等方法，有效解决了标签噪音和AU类型不平衡的问题。

自监督对比学习方法能够从未标注的面部视频中学习AU表示，显著减小自监督和有监督方法之间的性能差距，解决数据稀缺问题。

RTATL框架通过设计辅助任务，如RoI修复和光流估计，捕捉AU的局部特征和运动线索，从而提升AU识别性能。

多视角视频通过交叉视角重构任务注入几何信息，增强模型对视角变化的鲁棒性，从而改善面部表情识别的效果。

研究在NTU-60、NTU-120和ETRI数据集上报告了最先进的结果，并在其他数据集上进行了迁移学习，证明了方法的鲁棒性。

🏷️