小红花·文摘

本研究介绍了FoundaBench，一个评估中文语言模型的基准，发现中文语料库上预训练的模型性能更好，推理和记忆能力存在差异。FoundaBench为理解大型语言模型奠定了新标准，提供了强大框架。