UBENCH:使用多项选择题对大型语言模型中的不确定性进行基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于 UBENCH,我们评估了 15 个热门的 LLM 的可靠性,发现...
针对大型语言模型(LLMs)的可解释性低,现有评估系统忽视了响应的不确定性。提出了UBENCH,一个全面评估LLM可靠性的基准,包括3,978个多项选择题。UBENCH取得了最先进的性能,同时节省计算资源。评估了15个热门LLM,发现GLM4和GPT-4表现突出。探讨了Chain-of-Thought提示、角色扮演提示、选项顺序和温度对LLM可靠性的影响,并分析了对不同LLM的不同效果。