大型语言模型的行为与人类不同,尽管我们可能期望如此
原文英文,约1200词,阅读约需5分钟。发表于: 。A new study shows someone’s beliefs about an LLM play a significant role in the model’s performance and are important for how it is deployed.
研究人员提出了一种评估大型语言模型(LLMs)的框架,该框架基于人们对其性能的信念。他们通过调查人们与LLMs互动时的一般化方式,生成了近19,000个样本的数据集。研究发现,人们在评估LLMs的性能方面表现较差,更容易更新对LLMs的错误回答的信念。此外,人们倾向于认为LLMs在简单问题上的表现与复杂问题上的表现无关。研究人员希望他们的数据集能够成为比较LLMs在与人类一般化功能相关的任务上表现的基准,从而改善在实际情况中部署模型的性能。