本研究提出一种新架构,将强化学习代理与语言模型结合,解决大型语言模型在长期规划中的不足。通过引入领域特定信息指导模型探索,实现非线性推理。评估结果显示,该方法在程序等价性任务上表现优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。