小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种逐步自适应混合训练框架SASR，旨在解决大型语言模型训练中的过拟合和模式崩溃问题。SASR通过动态调整监督微调与强化学习的比例，提升模型性能。

逐步自适应集成监督微调和强化学习用于任务特定的大型语言模型

BriefGPT - AI 论文速递 ·