小红花·文摘

本研究提出CitaLaw基准，旨在提升大语言模型在法律领域生成合规回应的能力，强调法律条款和案例引用的准确性。研究结果表明，整合法律引用显著提高了回应质量，评估方法与人工评判高度一致，具有重要影响。

法律领域引文增强的大语言模型CitaLaw

BriefGPT - AI 论文速递 ·

本文介绍了CausalScore，一种用于评估开放领域对话系统回应质量的新度量标准。通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。实验结果显示CausalScore在与人类判断的一致性方面优于现有指标。作者还提供了一个带有人工注释的因果关系对话数据集CGDIALOG+，以促进未来自动度量标准的发展。

CausalScore: 用于评估开放领域对话系统中回复相关性的自动无参考度量

BriefGPT - AI 论文速递 ·