针对大型语言模型(LLMs)的可解释性低,现有评估系统忽视了响应的不确定性。提出了UBENCH,一个全面评估LLM可靠性的基准,包括3,978个多项选择题。UBENCH取得了最先进的性能,同时节省计算资源。评估了15个热门LLM,发现GLM4和GPT-4表现突出。探讨了Chain-of-Thought提示、角色扮演提示、选项顺序和温度对LLM可靠性的影响,并分析了对不同LLM的不同效果。
完成下面两步后,将自动完成登录并继续当前操作。