C# OnnxRuntime Gaze-LLE 注视目标估计
💡
原文英文,约1400词,阅读约需5分钟。
📝
内容提要
Gaze-LLE是一个基于变换器的注视目标估计模型,利用预训练的视觉基础模型,在冻结的视觉编码器上学习轻量级解码器,显著减少参数量,无需额外输入如深度和姿态。该模型通过ONNX实现,支持人脸检测和注视预测。
🎯
关键要点
- Gaze-LLE是一个基于变换器的注视目标估计模型。
- 该模型利用预训练的视觉基础模型,学习轻量级解码器。
- Gaze-LLE显著减少参数量,无需额外输入如深度和姿态。
- 模型通过ONNX实现,支持人脸检测和注视预测。
- 模型输入包括图像和人脸框,输出为热图和注视位置。
- 代码实现包括人脸检测和注视预测的功能。
- 使用OpenCvSharp库进行图像处理和显示。
- Gaze-LLE模型的推理过程包括图像预处理和热图生成。
- 模型的性能通过推理时间进行评估。
➡️