英语 LLMs 的代词使用准确度:是推理、重复还是偏见?

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

大型语言模型在处理代词时表现较差,对于新代词和干扰因素的处理能力有限。研究人员呼吁解决这些问题。

🎯

关键要点

  • 大型语言模型在代词处理方面表现较差,尤其是新代词和干扰因素的处理能力有限。
  • 研究引入了代词使用忠实度任务,以评估模型在代词重用中的表现。
  • 研究使用了超过500万个实例的数据集,评估了37个流行的大规模语言模型。
  • 模型在没有干扰因素的情况下通常能忠实重用代词,但在处理特定代词时表现显著较差。
  • 模型对代词的忠实性不稳健,容易受到干扰,准确性在有干扰句子的情况下显著下降。
  • 研究结果显示,现有大型语言模型在推理能力上存在显著差距,呼吁研究人员关注偏见和推理领域的问题。
➡️

继续阅读