小红花·文摘

该研究创建了多语言基准测试，评估语言模型的事实知识检索能力，并提出基于语言切换的方法。研究发现不同语言间的事实知识差异显著，英语表现优异，且多语言模型存在地理偏见。通过评估模型一致性和推理能力，专有模型通常优于公开模型。研究还提出在混合语言数据上微调模型的方法，以提升跨语言性能。

BriefGPT - AI 论文速递 ·

本研究评估了多语言大型语言模型（MLLMs）的事实准确性，发现英语表现优异但存在地理偏见。研究强调了改进多语言事实评估的必要性，并提出了新的真实性评估基准，以提升模型的可靠性和准确性。

BriefGPT - AI 论文速递 ·