再思限制 LLM 推理的边界:多智能体讨论是关键吗?
原文中文,约300字,阅读约需1分钟。发表于: 。通过系统实验,本研究通过提出一种新的群组讨论框架来重新评估多代理讨论对 LLMs 推理能力的改进,并发现,在广泛的推理任务和基于骨干的 LLMs 上,具有强提示的单一代理 LLM 几乎与最佳现有讨论方法表现一致。我们观察到,当提示中没有示范时,多代理讨论的表现优于单一代理,进一步研究揭示了 LLMs 在讨论过程中的常见互动机制。
大型语言模型在多项任务中表现出色,但在实际应用中面临挑战。多智能体系统具有整合和协调语言模型的潜力。本文提出了“推理能力”概念,以实现更全面的评估方法。通过自反思和人的反馈,解决推理中的缺陷,增强系统的一致性。