本研究提出逐步组相对策略优化(StepGRPO)框架,以提升多模态大型语言模型的推理能力。通过逐步奖励机制,实验结果表明R1-VL在逐步推理方面表现优异。
完成下面两步后,将自动完成登录并继续当前操作。