本研究介绍了StepTool,一种新的分步强化学习框架,解决大型语言模型在工具学习中的问题。通过分步奖励和优化,StepTool显著提升了工具学习效果,优于现有方法,适用于复杂任务环境。
完成下面两步后,将自动完成登录并继续当前操作。