小红花·文摘 - 小红花技术领袖俱乐部

本研究提出逐步组相对策略优化（StepGRPO）框架，以提升多模态大型语言模型的推理能力。通过逐步奖励机制，实验结果表明R1-VL在逐步推理方面表现优异。

R1-VL: Enhancing Reasoning Capabilities of Multimodal Large Language Models through Stepwise Group Relative Policy Optimization

BriefGPT - AI 论文速递 ·