小红花·文摘

Perception-R1是由多所高校联合开发的多模态大语言模型，首次在COCO2017验证集上实现30AP，超越YOLOv3等模型。该模型通过强化学习优化视觉感知策略，提升了物体检测、计数和OCR等任务的能力，为AI视觉感知的未来奠定基础。