Ego4D Looking At Me Challenge 的 PCIE_LAM 解决方案
原文中文,约400字,阅读约需1分钟。发表于: 。该报告介绍了我们团队在 CVPR2024 的 Ego4D Looking At Me 挑战中的 'PCIE_LAM' 解决方案。我们的方案 InternLSTM 由 InternVL 图像编码器和 Bi-LSTM 网络组成,通过提取空间和时间特征来准确确定场景中的人是否面向佩戴摄像头的摄像机。鉴于此任务中存在的面部图像模糊问题,我们采用了 Gaze Smoothing...
该报告介绍了团队在CVPR2024的Ego4D Looking At Me挑战中的解决方案,使用InternLSTM提取特征判断人是否面向佩戴摄像头的摄像机,采用Gaze Smoothing滤波器消除噪音或波动。在挑战中获得第一名,mAP为0.81,准确率为0.93。