小红花·文摘

Gaze-LLE是一个基于变换器的注视目标估计模型，利用预训练的视觉基础模型，在冻结的视觉编码器上学习轻量级解码器，显著减少参数量，无需额外输入如深度和姿态。该模型通过ONNX实现，支持人脸检测和注视预测。

dotNET跨平台 ·

本研究提出了Gaze-LLE框架，旨在解决注视目标估计问题，预测人们在场景中的关注位置。该方法利用冻结的DINOv2编码器特征，简化了估计过程，并在多个基准测试中表现优异。

BriefGPT - AI 论文速递 ·