组内组策略优化用于大语言模型代理训练

📝

内容提要

本研究解决了基于组的强化学习在长时间跨度的大语言模型代理训练中的可扩展性问题。提出的组内组策略优化(GiGPO)算法通过双层结构实现了细粒度的信用分配,同时保持了基于组的强化学习的优势。GiGPO在ALFWorld和WebShop基准测试中实现了显著的性能提升,表明其在强化学习任务中的有效性和潜在影响。

🏷️

标签

➡️

继续阅读