小红花·文摘

本文介绍了多个针对大型语言模型（LLMs）的评估基准，如M3KE、CMMLU和E-EVAL，涵盖自然科学、社会科学和K-12教育等领域。研究发现，中文优先的模型在某些学科表现优于英文模型，但在复杂科目如数学上仍需改进。同时，KMMLU和MedBench等基准揭示了韩语和医学领域LLMs的能力与局限，强调了进一步改进的必要性。