内容提要
本文介绍了大模型(LLMs)在文本评估中的问题,包括偏见和不一致性,并提出了一种新的评估范式,使用成对偏好排序来对LLMs进行评估。作者设计了两种高效的偏好搜索算法(PairS-greedy和PairS-beam),并在多个数据集上进行了实验,结果显示PairS在与人类评分的一致性方面表现更好。
关键要点
-
大模型(LLMs)在文本评估中存在偏见和不一致性的问题。
-
提出了一种新的评估范式,使用成对偏好排序来评估LLMs。
-
设计了两种高效的偏好搜索算法:PairS-greedy和PairS-beam。
-
PairS算法通过利用不确定性和传递性假设,提供高效准确的偏好排序。
-
LLM评估器对提示设计敏感,受到多种偏见影响,导致与人类判断不一致。
-
现有的校准技术未能有效对齐LLM评估器。
-
PairS-greedy算法基于完全传递性假设,复杂度为O(NlogN)。
-
PairS-beam算法在宽松传递性假设下,通过似然值进行集束搜索,优化偏好排序。
-
实验结果显示PairS在多个数据集上与人类评分一致性更高。
-
PairS仅需约30%的对比次数即可达到其他基线方法的偏好排序质量。
延伸问答
大模型在文本评估中存在哪些问题?
大模型在文本评估中存在偏见和不一致性的问题,受到提示设计和多种偏见的影响,导致与人类判断不一致。
PairS算法的主要功能是什么?
PairS算法通过成对偏好排序来评估大模型,提供高效准确的偏好排序,改善与人类评分的一致性。
PairS-greedy和PairS-beam算法有什么区别?
PairS-greedy基于完全传递性假设,复杂度为O(NlogN),而PairS-beam在宽松传递性假设下,通过似然值进行集束搜索,优化偏好排序。
PairS算法在实验中表现如何?
实验结果显示,PairS在多个数据集上与人类评分的一致性更高,仅需约30%的对比次数即可达到其他基线方法的偏好排序质量。
为什么现有的校准技术未能有效对齐LLM评估器?
现有的校准技术未能有效对齐LLM评估器,主要是因为评估标准的错位,而非评估分数分布的偏见。
如何通过PairS算法减少LLM的偏见?
PairS算法通过成对偏好排序来评估,利用不确定性和传递性假设,提供更对齐人类判断的评估结果,从而减少偏见。