该研究提出了一种新的混合网络TGBFormer,用于视频目标检测,解决了全球和局部信息利用不足的问题。引入空间-时间变换模块后,实验结果表明该方法在ImageNet VID数据集上表现优异,具有实际应用潜力。
本文提出了ODD-VOD框架,通过图像级对象检测度量解决过聚合问题,提升视频目标检测的准确性和速度。同时介绍了SSVD架构和SELSA特征聚合方法,均在多个数据集上表现优异,推动了视频物体检测技术的发展。
该论文研究了自适应目标检测,提出了多种简化方法以替代复杂技术,并利用周期性交换教师-学生方法(PETS)解决训练不稳定问题。实验结果表明,该方法在无源目标检测中表现出色,尤其在恶劣条件下的视频目标检测中具有明显优势。
该论文提出了一种新的视频目标检测方法,通过多帧图像数据建立成本卷积表示,提升了3D检测性能。同时,基于历史帧的FrameFusion方法结合车辆运动模型,显著提高了3D检测器的性能。实验结果表明,该方法在多个数据集上表现优异。
本文介绍了一种用于视频目标检测的空间-时间记忆网络,通过新颖的空间-时间记忆模块和MatchTrans模块解决了视频中的物体运动问题。实验结果表明该方法在ImageNet VID数据集上取得了最先进的结果。
本研究提出了一种基于全序列级别的特征聚合方法(SELSA),用于视频目标检测。该方法在 ImageNet VID 和 EPIC KITCHENS 数据集上取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。