本文提出了一种新颖的注视估计框架DMAGaze,旨在减少面部图像中复杂信息对注视估计的干扰。通过引入解耦器和多尺度注意力模块,该方法有效提取相关特征,提高了估计精度,并在公开数据集上取得了优异表现。
本研究提出了一种新颖的轻量级注视估计模型FGI-Net,旨在克服现有模型在参数量、训练时间和收敛速度上的不足。FGI-Net有效融合全局信息,降低复杂性,提高准确性和收敛速度,实验结果表明其在多个数据集上表现优越。
CrossGaze是一个利用计算机视觉架构和基于注意力的模块实现非受限环境下注视方向准确预测的强大注视估计基准。在Gaze360基准测试中,其性能优于多种最新方法,均方角误差达到9.94度。该模型为未来注视估计研究与发展提供了基础,为实际场景中的准确注视预测铺平了道路。
完成下面两步后,将自动完成登录并继续当前操作。