BriefGPT - AI 论文速递 ·

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

💡 原文中文，约500字，阅读约需1分钟。

📝

内容提要

介绍了中国K-12教育领域的综合评估基准E-EVAL，发现中文优先的模型在多个学科表现良好，但在数学等复杂科目上表现不佳。思维链技术（CoT）对科学学科有效，一键提示对文科学科有益。旨在推动中国K-12教育和LLM的进步与发展。

🎯

🏷️

TÜV南德与中国汽研联合发布全域车用AI可信能力等级测评
(全球TMT 2026年07月20日讯)在2026世界人工智能大会（WAIC）全球工业人工智能国际合作论坛期间 […]
启鸣达人首发《世界模型驱动的教育AGI白皮书》| WAIC 2026
从理论探索到体系构建
A社调整Claude Team订阅成员限制起步从5人下调到2人以便更多小团队开通订阅
#人工智能 A 社宣布调整 Claude Team 团队订阅机制，从最小 5 人席位下调到 2 人席位，即现在只需要 2 个成员就可以开通团队账号。此次调...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
Rust 不必取代 Java：进入大型商业软件的一条现实路径
Java 处理业务复杂度，Rust 承担运行时关键性。不同的微服务可以拥有不同的领域模型，但工程团队仍然可以拥有一致的开发体验。 Rust 的优点已经不...
你的群聊才是唯一真正重要的新闻来源
在这个信息过载的时代，群聊已成为终极过滤器。这里就像一个实时新闻编辑室，头条新闻在这里被热议、解读，并被改编成网络梗，从而变得引人关注。你的手机震动了一...