理解地理区域中大型语言模型事实检查的不平等
📝
内容提要
本研究旨在探讨大型语言模型(LLMs)在不同地理区域进行事实检查时的表现差异。通过评估600个经过事实核查的声明,发现无论使用何种模型,全球北方地区的表现明显优于全球南方,这一差距在使用基于维基百科的代理系统时尤为显著。这些发现强调了改进数据集平衡和检索策略的迫切需求,以增强LLMs在地理多样性环境中的事实检查能力。
🏷️
标签
➡️