通过大规模人类判断经验评估大型语言模型的常识智能 本研究针对当前常识智能评估中的问题,提出了一种新颖的方法,考虑了人类在常识理解上的异质性。研究发现,大型语言模型的常识能力普遍低于人类中位数,并且这些模型与真实人类在共识上仅有适度的相关性,强调了将常识智能与文化基础相结合的重要性,推动了AI模型更好地适应不同社会知识背景的呼声。 本研究提出了一种新方法,解决常识智能评估问题,发现大型语言模型的常识能力低于人类中位数,并强调结合文化基础以提升AI模型的适应性。 AI适应性 人类中位数 大型语言模型 常识智能 文化基础