本文研究了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。通过交替使用传统的特征提取器和轻量级的提取器,展示了在存在时间记忆的情况下,进行准确检测所需的计算量很小。同时,展示了记忆可以应用于强化学习算法来学习自适应推断策略。该模型在 Imaget VID 2015 数据集上实现了最先进的性能,并在 Pixel 3 手机上以 70+ FPS 的速度运行。
深度学习与人类在物体识别方面的差距正在缩小,但在识别不寻常姿势的物体时,人类表现更好。然而,限制图像暴露时间后,人类的表现下降到深度网络水平。人类和网络的错误模式也不相似,因此需要更多工作来提高计算机视觉系统的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。