Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了Gaze-LLE框架,旨在解决注视目标估计问题,预测人们在场景中的关注位置。该方法利用冻结的DINOv2编码器特征,简化了估计过程,并在多个基准测试中表现优异。
🎯
关键要点
-
本研究提出了Gaze-LLE框架,旨在解决注视目标估计问题。
-
Gaze-LLE利用冻结的DINOv2编码器特征,简化了注视目标估计过程。
-
该方法在多个注视基准测试中表现优异,展现了最先进的性能。
-
研究提供了广泛的分析以验证设计选择。
➡️