Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新方法——行为约束策略梯度与负样本增强(BCPG-NSA),旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息,实验结果表明该方法在数学和编程推理基准测试中优于现有技术,提高了样本效率,并展现出良好的鲁棒性和可扩展性。
🎯
关键要点
- 本研究提出了一种新方法——行为约束策略梯度与负样本增强(BCPG-NSA),旨在优化大语言模型的推理能力。
- 该方法通过挖掘负样本中的反思和纠错信息,提升了模型的样本效率。
- 实验结果表明,BCPG-NSA在数学和编程推理基准测试中优于现有技术。
- 该方法展现出良好的鲁棒性和可扩展性。
➡️