小红花·文摘

Perception-R1是由多所高校联合开发的多模态大语言模型，首次在COCO2017验证集上实现30AP，超越YOLOv3等模型。该模型通过强化学习优化视觉感知策略，提升了物体检测、计数和OCR等任务的能力，为AI视觉感知的未来奠定基础。

量子位 ·

本研究提出了一种新方法，通过用3D卷积替换传统的2D卷积，提升脉冲神经网络在静态物体检测中的时间处理能力。实验结果表明，该方法在COCO2017和VOC数据集上的表现与传统人工神经网络相当。

BriefGPT - AI 论文速递 ·