小红花·文摘

本研究提出了一种新算法APA，优化了平方误差损失函数，显著优于PPO，解决了模式崩溃和样本效率低的问题。通过离线强化学习对齐语言模型并结合人类反馈，提升了模型训练的稳定性和性能。此外，研究还探讨了新算法XPO，增强了在线探索的样本效率。