E-EVAL:大型语言模型的全面中国 K-12 教育评估基准
原文中文,约500字,阅读约需1分钟。发表于: 。通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL,针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成,并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现,中文优先的模型相比于英文优先的模型表现良好,其中许多模型的得分甚至超过了 GPT...
介绍了中国K-12教育领域的综合评估基准E-EVAL,发现中文优先的模型在多个学科表现良好,但在数学等复杂科目上表现不佳。思维链技术(CoT)对科学学科有效,一键提示对文科学科有益。旨在推动中国K-12教育和LLM的进步与发展。