该研究创建了多语言基准测试,评估语言模型的事实知识检索能力,并提出基于语言切换的方法。研究发现不同语言间的事实知识差异显著,英语表现优异,且多语言模型存在地理偏见。通过评估模型一致性和推理能力,专有模型通常优于公开模型。研究还提出在混合语言数据上微调模型的方法,以提升跨语言性能。
本文调研了预训练语言模型的事实知识探测方法,提出了基于输入、输出和模型适应性的分类方案。研究创建了多语言基准测试,评估语言模型的知识检索能力,并提出了知识提示范式和KP-PLM框架,展示了其在自然语言理解任务中的优越性。此外,设计了基准测试Pinocchio,评估模型的事实知识广度,发现现有模型存在知识缺失和虚假相关性。
本论文介绍了一种名为In-CLT的新的跨语言转移提示方法,通过构建演示例子来证明其在多语言基准测试中的可行性和性能提升。该方法平均比以前的方法提高了10到20个百分点,并探讨了词汇相似性和预训练语料库在跨语言转移方面的关系。
完成下面两步后,将自动完成登录并继续当前操作。