小红花·文摘

本研究提出了一种新方法——行为约束策略梯度与负样本增强（BCPG-NSA），旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息，实验结果表明该方法在数学和编程推理基准测试中优于现有技术，提高了样本效率，并展现出良好的鲁棒性和可扩展性。