SALSA:基于汤的对齐学习以增强RLHF中的适应性
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新策略SALSA,通过对两个监督微调模型的权重空间进行平均,旨在克服传统RLHF方法的局限性,提升模型的鲁棒性和表现,超越传统的PPO方法。
🎯
关键要点
- 提出了一种新策略SALSA,旨在克服传统RLHF方法的局限性。
- SALSA通过对两个监督微调模型的权重空间进行平均,创建更灵活的参考模型。
- 研究表明,该方法有效推动了更深入的探索。
- SALSA提升了模型的鲁棒性和表现。
- 在多项基准测试中,SALSA超越了传统的PPO方法。
➡️