小红花·文摘

LLMs展示了对语义的出色理解能力，但在理解语用学方面常有困难。我们发布了一个包含四个语用学现象的语用学理解基准（PUB）数据集，评估了九个模型，发现fine-tuning能够提升较小的语言模型在遵循指令和聊天方面的语用学能力。较大的模型的性能与聊天适应版本相当。这个基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。