大语言模型LLM能否对自己的成果进行批判和迭代？ | evjang

在计算机科学的许多领域（密码学，NP复杂性），验证解决方案比生成解决方案容易得多。这篇博客文章发现大语言模型LLM（主要是GPT-4）可能能够自我验证其解决方案。与概率推理和最优控制中的大多数算法思想一样，让代理者自己批评其决策以使其变得更好是一个古老的想法，已被一遍又一遍地重新实施。以下是一些相关作品： ...

本文探讨了大语言模型LLM（主要是GPT-4）自我验证解决方案的可能性，介绍了机器人技术、深度强化学习和AlphaGo等领域中代理者自我批评的实施情况。文章还提到了“让我们一步步思考”论文中的思维链提示技术和使用LLM来帮助批评LLM答案的研究。作者认为随着LLM中神经网络上下文长度的增加，自我反思将成为更有效的提示技术，并提出了在没有人为干预的情况下使用批评来产生更好输出的可能性。

AlphaGo llm 大语言模型机器人技术深度强化学习自我验证