Sharingan:一种基于 Transformer 的注视跟踪架构
原文中文,约200字,阅读约需1分钟。发表于: 。面部注视是人类从小培养起来的一种强大的非语言交流和社交互动方式。因此,对这种行为进行建模是一项重要任务,可以造福于从机器人学到社会学等广泛领域。本文介绍了一种基于变换器的二维注视预测架构,通过两个变种进行实验,并取得了在 GazeFollow 和 VideoAttentionTarget 数据集上的最新成果。
该研究使用Transformer架构自动检测图像中的对象,并建立对象与注视的关联,实现全面的注视分析。该方法在各项指标上均取得了最新的成果,对注视目标检测提高了AUC的达到2.91%、注视距离减少了50%、注视对象分类和定位平均精度提高了11-13%。