本研究提出CitaLaw基准,旨在提升大语言模型在法律领域生成合规回应的能力,强调法律条款和案例引用的准确性。研究结果表明,整合法律引用显著提高了回应质量,评估方法与人工评判高度一致,具有重要影响。
本文介绍了CausalScore,一种用于评估开放领域对话系统回应质量的新度量标准。通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。实验结果显示CausalScore在与人类判断的一致性方面优于现有指标。作者还提供了一个带有人工注释的因果关系对话数据集CGDIALOG+,以促进未来自动度量标准的发展。
完成下面两步后,将自动完成登录并继续当前操作。