介绍了中国K-12教育领域的综合评估基准E-EVAL,发现中文优先的模型在多个学科表现良好,但在数学等复杂科目上表现不佳。思维链技术(CoT)对科学学科有效,一键提示对文科学科有益。旨在推动中国K-12教育和LLM的进步与发展。
完成下面两步后,将自动完成登录并继续当前操作。