重新审视语言模型中的不确定性量化评估:与响应长度偏差结果的虚假交互
Uncertainty Quantification (UQ) in Language Models (LMs) is key to improving their safety and reliability. Evaluations often use metrics like AUROC to assess how well UQ methods (e.g., negative...
语言模型中的不确定性量化(UQ)对安全性和可靠性至关重要。研究表明,UQ方法与任务正确性函数之间的偏差会系统性扭曲评估结果,影响AUROC排名。分析显示,正确性函数的长度偏差与UQ方法的长度偏差相互作用,导致评估失真。使用LM作为评判者的方法被认为是最不受长度偏差影响的,提供了更公平的UQ评估路径。
