Perception-R1是由多所高校联合开发的多模态大语言模型,首次在COCO2017验证集上实现30AP,超越YOLOv3等模型。该模型通过强化学习优化视觉感知策略,提升了物体检测、计数和OCR等任务的能力,为AI视觉感知的未来奠定基础。
本研究提出一种新方法,通过使用3D卷积替代2D卷积,提升脉冲神经网络在静态物体检测中的性能,使其在COCO2017和VOC数据集上与传统人工神经网络相当。
完成下面两步后,将自动完成登录并继续当前操作。