文化基准:一个健壮、多样且具有挑战性的基准,用于衡量大型语言模型的(缺乏)文化知识
原文中文,约500字,阅读约需2分钟。发表于: 。本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。
本文介绍了WorldValuesBench数据集,基于World Values Survey,用于预测多元文化价值。数据集包含全球94728名参与者的回答,生成了2000多万个例子。研究发现,这一任务对开源和闭源模型都具挑战性,Alpaca-7B等模型在部分问题上表现有限。该数据集为研究语言模型中的多元文化价值意识提供了新方向。