小红花·文摘

本研究提出了一种批评引导改进（CGI）框架，旨在解决大型语言模型在行动改进中的反馈不足问题。通过演员模型与批评模型的协作，CGI显著提升了决策效率，实验结果表明其在多种交互环境中优于现有基准。