大型语言模型在遵循指令时能否有效估计不确定性?
发表于: 。本研究解决了大型语言模型(LLMs)在遵循用户指令过程中不确定性估计的不足。我们提出了一种新颖的受控评估方法,通过两个基准版本的数据全面比较不确定性估计方法的表现。研究发现,现有的不确定性估计方法在模型存在微小错误的情况下表现不佳,强调了LLMs在指令遵循任务中的局限性及其信任度的重要性。
本研究解决了大型语言模型(LLMs)在遵循用户指令过程中不确定性估计的不足。我们提出了一种新颖的受控评估方法,通过两个基准版本的数据全面比较不确定性估计方法的表现。研究发现,现有的不确定性估计方法在模型存在微小错误的情况下表现不佳,强调了LLMs在指令遵循任务中的局限性及其信任度的重要性。