小红花·文摘

研究者发现大多数对话模型生成的摘要中有27%的事实不一致。对于更具挑战性的事实问题回答，所有模型的平均准确率仅为62.8%。研究者提出了一种通过自动构建多任务数据进行微调的方法，实验结果显示准确率提升了8.9%。

大型语言模型对语法的理解程度如何？通过提问自然语言问题进行评估

BriefGPT - AI 论文速递 ·

本文研究了faithfulness metrics在对话摘要任务中的应用，发现大多数度量方法在对话数据上的表现与人类判断相关性较差。为了提高faithfulness metrics的性能，采用了fine-tuning和unlikelihood training等技术。最后提出了T0-Score度量方法，能够稳定提高评价性能。

利用最长支持子序列评估忠实度

BriefGPT - AI 论文速递 ·