小红花·文摘

针对大型语言模型（LLMs）的可解释性低，现有评估系统忽视了响应的不确定性。提出了UBENCH，一个全面评估LLM可靠性的基准，包括3,978个多项选择题。UBENCH取得了最先进的性能，同时节省计算资源。评估了15个热门LLM，发现GLM4和GPT-4表现突出。探讨了Chain-of-Thought提示、角色扮演提示、选项顺序和温度对LLM可靠性的影响，并分析了对不同LLM的不同效果。