NewTerm:针对大型语言模型的新术语实时基准测试(年度更新)

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们研究了大规模语言模型的事实知识随时间的保持情况,设计了动态基准评估18种模型的知识更新能力,并比较了知识编辑与检索增强生成的方法。

🎯

关键要点

  • 研究大规模语言模型的事实知识随时间的保持情况。
  • 设计了一个动态基准来识别过时的知识。
  • 通过实时从Wikidata检索信息评估18种模型。
  • 评估知识编辑方法与检索增强生成的效果。
  • 共享代码、数据集及评估和可视化脚本以扩展动态基准。
➡️

继续阅读