小红花·文摘

该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统。自我批评削弱了计划生成性能，但对 LLM 验证器的影响不大。LLMs 在计划任务的自我批评迭代框架中的有效性受到质疑。