LLM 在谈判对话中的多维能力的系统评估
原文中文,约400字,阅读约需1分钟。发表于: 。通过分析 LLMs 在各种对话场景中的多面能力,该研究旨在了解 LLMs 如何推进不同方面的谈判研究,包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明,虽然 GPT-4 在各种任务上表现出优越性,但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面,模型与人类玩家的相关性较差、往往困难重重。
近期自然语言处理的进展,特别是大型语言模型(LLMs)的出现,为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而,LLMs 在模拟人类互动方面的局限性被突出,特别关注在模拟政治辩论方面的能力。研究发现,LLM 代理倾向于符合模型固有的社会偏见,这导致了行为模式的偏离。使用自动自我微调方法可以操纵 LLM 内的偏见,并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性,以开发帮助代理克服这些偏见的方法。