小红花·文摘

阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准，涵盖六大领域和100个细分场景，旨在全面评估大模型的写作能力。该基准克服了现有评估的局限性，采用动态评估体系，提高了人类一致性得分。研究表明，思维链技术在创意写作中表现优异，但在效率型写作上效果有限。

量子位 ·

本研究通过自我一致性和思维链技术，提升了云端大型语言模型在数学推理中的准确性。提出的MathGenie和MathScaleQA方法，通过生成高质量的数学问题和数据集，显著提高了模型性能，解决了结构化数据处理的困难，并为后续开源研究提供了重要资源。

BriefGPT - AI 论文速递 ·

介绍了中国K-12教育领域的综合评估基准E-EVAL，发现中文优先的模型在多个学科表现良好，但在数学等复杂科目上表现不佳。思维链技术（CoT）对科学学科有效，一键提示对文科学科有益。旨在推动中国K-12教育和LLM的进步与发展。

BriefGPT - AI 论文速递 ·