Sharingan:一种基于 Transformer 的注视跟踪架构
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究使用Transformer架构自动检测图像中的对象,并建立对象与注视的关联,实现全面的注视分析。该方法在各项指标上均取得了最新的成果,对注视目标检测提高了AUC的达到2.91%、注视距离减少了50%、注视对象分类和定位平均精度提高了11-13%。
🎯
关键要点
- 该研究使用基于 Transformer 的架构自动检测图像中的对象。
- 研究建立了对象与注视的关联,实现全面的可解释的注视分析。
- 注视分析包括注视目标区域、注视像素点、被注视对象的类别和图像位置。
- 该方法在各项指标上取得了最新成果。
- 注视目标检测的 AUC 提高了 2.91%。
- 注视距离减少了 50%。
- 注视对象分类和定位的平均精度提高了 11-13%。
- 研究代码可在链接中获得。
🏷️
标签
➡️