本研究提出了Gaze-LLE框架,旨在解决注视目标估计问题,预测人们在场景中的关注位置。该方法利用冻结的DINOv2编码器特征,简化了估计过程,并在多个基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。