阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准,涵盖六大领域和100个细分场景,旨在全面评估大模型的写作能力。该基准克服了现有评估的局限性,采用动态评估体系,提高了人类一致性得分。研究表明,思维链技术在创意写作中表现优异,但在效率型写作上效果有限。
介绍了中国K-12教育领域的综合评估基准E-EVAL,发现中文优先的模型在多个学科表现良好,但在数学等复杂科目上表现不佳。思维链技术(CoT)对科学学科有效,一键提示对文科学科有益。旨在推动中国K-12教育和LLM的进步与发展。
完成下面两步后,将自动完成登录并继续当前操作。