Ego4D Looking At Me Challenge 的 PCIE_LAM 解决方案

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该报告介绍了团队在CVPR2024的Ego4D Looking At Me挑战中的解决方案,使用InternLSTM提取特征判断人是否面向佩戴摄像头的摄像机,采用Gaze Smoothing滤波器消除噪音或波动。在挑战中获得第一名,mAP为0.81,准确率为0.93。

🎯

关键要点

  • 该报告介绍了团队在CVPR2024的Ego4D Looking At Me挑战中的解决方案。
  • 团队的方案名为'PCIE_LAM',使用InternLSTM模型。
  • InternLSTM由InternVL图像编码器和Bi-LSTM网络组成。
  • 该方案通过提取空间和时间特征来判断人是否面向佩戴摄像头的摄像机。
  • 为了解决面部图像模糊问题,采用了Gaze Smoothing滤波器。
  • 在挑战中,团队获得第一名,mAP为0.81,准确率为0.93。
  • 代码可在链接中访问。
➡️

继续阅读