本文提出了一种课程式强化学习后训练范式(Curr-ReFT),旨在提升小规模视觉-语言模型(VLMs)的推理能力和域外泛化性能。通过结合课程学习与自我改进策略,Curr-ReFT 有效解决了小模型在复杂任务中的性能瓶颈,实验结果表明其在多个基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。