本文提出了一种课程式强化学习后训练范式(Curr-ReFT),旨在提升小规模视觉-语言模型(VLMs)的推理能力和域外泛化性能。通过结合课程学习与自我改进策略,Curr-ReFT 有效解决了小模型在复杂任务中的性能瓶颈,实验结果表明其在多个基准测试中表现优异。
本文介绍了一种通过多阶段训练扩大双编码器模型规模的方法,解决了双编码器在不同域上的推广问题。该方法在域外泛化和检索性能方面取得了显著提高,优于现有的检索模型。消融研究还发现该方法在数据效率方面非常高效。
本文介绍了GTR模型,它是一种双编码器模型,通过多阶段训练并扩大模型规模,在保持瓶颈嵌入大小不变的情况下,成功挑战了双编码器无法推广到其他域的观念。GTR在域外泛化方面表现出显著的检索性能提高,并且在BEIR数据集上优于现有的稀疏和密集的检索模型。消融研究表明,GTR在数据效率方面非常高效,只需要MS Marco 10%的监督数据即可实现最佳的跨域检索性能。
完成下面两步后,将自动完成登录并继续当前操作。