本研究提出了一种批评引导改进(CGI)框架,旨在解决大型语言模型在行动改进中的反馈不足问题。通过演员模型与批评模型的协作,CGI显著提升了决策效率,实验结果表明其在多种交互环境中优于现有基准。
完成下面两步后,将自动完成登录并继续当前操作。