Perception-R1是由多所高校联合开发的多模态大语言模型,首次在COCO2017验证集上实现30AP,超越YOLOv3等模型。该模型通过强化学习优化视觉感知策略,提升了物体检测、计数和OCR等任务的能力,为AI视觉感知的未来奠定基础。
完成下面两步后,将自动完成登录并继续当前操作。