评估一阶逻辑相似度测量与人类判断的对齐
📝
内容提要
本研究针对评估一阶逻辑(FOL)语句正确性缺乏可靠评估指标的问题,探讨了现有指标的敏感性及其与人类判断的对齐程度。通过对基准FOL进行扰动测试,发现现有指标在不同类型的扰动下表现出过度敏感,而BertScore与人类判断更为一致。此外,通过组合多个指标,能够提升对齐度和敏感性。
➡️
本研究针对评估一阶逻辑(FOL)语句正确性缺乏可靠评估指标的问题,探讨了现有指标的敏感性及其与人类判断的对齐程度。通过对基准FOL进行扰动测试,发现现有指标在不同类型的扰动下表现出过度敏感,而BertScore与人类判断更为一致。此外,通过组合多个指标,能够提升对齐度和敏感性。