变异性不一定意味着错误:充分但语义上不同响应的案例
📝
内容提要
本研究解决了语言模型响应可靠性评估中的一个问题,特别是针对建立响应的变异性与错误之间的联系。提出了一种新的方法——通过对样本响应的适应性进行标注,估计模型对适当响应的概率 (PROBAR),经验证明PROBAR在评估模型信任度方面优于语义熵,表明其在开放式设置中的有效性。
➡️
本研究解决了语言模型响应可靠性评估中的一个问题,特别是针对建立响应的变异性与错误之间的联系。提出了一种新的方法——通过对样本响应的适应性进行标注,估计模型对适当响应的概率 (PROBAR),经验证明PROBAR在评估模型信任度方面优于语义熵,表明其在开放式设置中的有效性。