C# OnnxRuntime Gaze-LLE 注视目标估计

💡 原文英文,约1400词,阅读约需5分钟。
📝

内容提要

Gaze-LLE是一个基于变换器的注视目标估计模型,利用预训练的视觉基础模型,在冻结的视觉编码器上学习轻量级解码器,显著减少参数量,无需额外输入如深度和姿态。该模型通过ONNX实现,支持人脸检测和注视预测。

🎯

关键要点

  • Gaze-LLE是一个基于变换器的注视目标估计模型。
  • 该模型利用预训练的视觉基础模型,学习轻量级解码器。
  • Gaze-LLE显著减少参数量,无需额外输入如深度和姿态。
  • 模型通过ONNX实现,支持人脸检测和注视预测。
  • 模型输入包括图像和人脸框,输出为热图和注视位置。
  • 代码实现包括人脸检测和注视预测的功能。
  • 使用OpenCvSharp库进行图像处理和显示。
  • Gaze-LLE模型的推理过程包括图像预处理和热图生成。
  • 模型的性能通过推理时间进行评估。
➡️

继续阅读