本研究提出了一种逐步自适应混合训练框架SASR,旨在解决大型语言模型训练中的过拟合和模式崩溃问题。SASR通过动态调整监督微调与强化学习的比例,提升模型性能。
完成下面两步后,将自动完成登录并继续当前操作。