中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

本文提出了一种课程式强化学习后训练范式(Curr-ReFT),旨在提升小规模视觉-语言模型(VLMs)的推理能力和域外泛化性能。通过结合课程学习与自我改进策略,Curr-ReFT 有效解决了小模型在复杂任务中的性能瓶颈,实验结果表明其在多个基准测试中表现优异。

🎯

关键要点

  • 提出了一种课程式强化学习后训练范式(Curr-ReFT),旨在提升小规模视觉-语言模型的推理能力和域外泛化性能。
  • 小规模模型在复杂任务中存在性能瓶颈,主要表现为域外泛化能力不足和推理能力有限。
  • 课程学习结合自我改进策略,确保模型能力从基础任务到复杂推理任务的稳步提升。
  • Curr-ReFT 通过难度感知的奖励设计,帮助小型 VLMs 突破性能瓶颈,实现与大规模模型相媲美的推理能力。
  • 实验结果表明,Curr-ReFT 在多个基准测试中表现优异,尤其在域外数据上的表现显著提升。
  • Curr-ReFT 包含两个训练阶段:课程强化学习和基于拒绝采样的自我改进。
  • 课程强化学习通过逐步提升任务难度,确保模型能力的稳步提升。
  • 拒绝采样自我增强通过选择性学习维持 VLMs 的基础能力。
  • 实验验证了 Curr-ReFT 在多模态数学推理任务中的显著性能提升,尤其在跨领域泛化能力方面。
  • 研究结果显示,强化学习训练方法在提高模型的域内和域外表现方面具有显著优势。

延伸问答

什么是课程式强化学习后训练范式(Curr-ReFT)?

课程式强化学习后训练范式(Curr-ReFT)是一种结合课程学习与自我改进策略的训练方法,旨在提升小规模视觉-语言模型的推理能力和域外泛化性能。

Curr-ReFT如何解决小规模模型的性能瓶颈?

Curr-ReFT通过难度感知的奖励设计,逐步提升任务难度,确保模型能力从基础任务到复杂推理任务的稳步提升,从而突破性能瓶颈。

Curr-ReFT在实验中表现如何?

实验结果表明,Curr-ReFT在多个基准测试中表现优异,尤其在域外数据上的表现显著提升,甚至超越了某些大规模模型。

小规模视觉-语言模型面临哪些主要问题?

小规模视觉-语言模型主要面临域外泛化能力不足和推理能力有限的问题,容易过拟合训练数据,难以处理复杂任务。

Curr-ReFT的训练阶段有哪些?

Curr-ReFT包含两个训练阶段:课程强化学习和基于拒绝采样的自我改进。

课程学习在Curr-ReFT中起什么作用?

课程学习在Curr-ReFT中通过逐步暴露模型于递增复杂任务,确保模型能力的稳步提升,帮助克服训练不稳定性。

➡️

继续阅读