小红花·文摘

本文研究了faithfulness metrics在对话摘要任务中的应用，发现大多数度量方法在对话数据上的表现与人类判断相关性较差。为了提高faithfulness metrics的性能，采用了fine-tuning和unlikelihood training等技术。最后提出了T0-Score度量方法，能够稳定提高评价性能。