SwinFace: 一种用于人脸识别、表情识别、年龄估计和属性估计的多任务 Transformer
研究人员开发了一种名为MulT的多任务学习Transformer框架,用于同时学习多个高级视觉任务。他们的框架基于Swin transformer模型,利用任务特定的解码器头为每个任务进行预测,并采用共享的注意机制模型来建模任务之间的依赖关系。实验结果显示,MulT框架优于其他多任务卷积神经网络模型和单任务Transformer模型,并具有鲁棒性和泛化性能。
原文中文,约400字,阅读约需1分钟。