大型语言模型的标量含义的实用推理

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

LLMs展示了对语义的出色理解能力,但在理解语用学方面常有困难。我们发布了一个包含四个语用学现象的语用学理解基准(PUB)数据集,评估了九个模型,发现fine-tuning能够提升较小的语言模型在遵循指令和聊天方面的语用学能力。较大的模型的性能与聊天适应版本相当。这个基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。

🎯

关键要点

  • LLMs在语义理解方面表现出色,但在语用学理解上存在困难。
  • 发布了包含四个语用学现象的语用学理解基准(PUB)数据集。
  • PUB数据集包括合困推理、预设、参照和指示四个任务,共28k个数据点。
  • 评估了九个不同参数和训练类型的模型。
  • 对于较小的语言模型,fine-tuning显著提升其语用学能力。
  • 较大的模型的基础版本与聊天适应版本性能相当。
  • 人类能力与模型能力之间存在明显性能差距。
  • 模型在不同提示和任务复杂性下表现不稳定,性能波动较大。
  • 该基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。
➡️

继续阅读