Gaze-LLE是一个基于变换器的注视目标估计模型,利用预训练的视觉基础模型,在冻结的视觉编码器上学习轻量级解码器,显著减少参数量,无需额外输入如深度和姿态。该模型通过ONNX实现,支持人脸检测和注视预测。
完成下面两步后,将自动完成登录并继续当前操作。