大型语言模型通过自我批判自我提升的真的有效吗?
原文中文,约300字,阅读约需1分钟。发表于: 。几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统,发现自我批评似乎削弱了计划生成的性能,并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响,二进制或详细反馈对计划生成几乎没有影响。总体而言,这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。
该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统。自我批评削弱了计划生成性能,但对 LLM 验证器的影响不大。LLMs 在计划任务的自我批评迭代框架中的有效性受到质疑。