小红花·文摘

本研究探讨视觉语言模型（VLMs）在处理视觉和语言线索下的无知推断能力，发现模型对语言线索敏感，但在视觉线索的推断能力上表现较弱且不一致，指出VLM在语用推理方面存在困难，需进一步改进。

视觉语言模型中视觉和语言线索对无知推断的影响

BriefGPT - AI 论文速递 ·

本研究提出了一套全面的基准评估工具，用于评估大型语言模型在欺诈与滥用检测领域的应用。研究发现，尽管在个别任务中表现良好，但在需要细致的语用推理的任务上表现不佳。这为大型语言模型在高风险应用中的负责任发展提供了重要启示。

DetoxBench：大型语言模型多任务欺诈与滥用检测基准

BriefGPT - AI 论文速递 ·

LLMs展示了对语义的出色理解能力，但在理解语用学方面常有困难。我们发布了一个包含四个语用学现象的语用学理解基准（PUB）数据集，评估了九个模型，发现fine-tuning能够提升较小的语言模型在遵循指令和聊天方面的语用学能力。较大的模型的性能与聊天适应版本相当。这个基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。

大型语言模型的标量含义的实用推理

BriefGPT - AI 论文速递 ·