小红花·文摘

本研究针对现有大型语言模型（LLMs）在知识评估方面过于侧重英语的问题，提出了一种新的阿拉伯语多选题数据集AraSTEM，旨在全面评估这些模型在STEM学科的知识。研究发现，许多现有模型在该数据集上表现不佳，强调了开发更本地化语言模型的必要性。

AraSTEM: 一个评估大型语言模型在STEM学科知识的阿拉伯语多选题基准

BriefGPT - AI 论文速递 ·

本文介绍了MMMU基准，旨在评估多模态模型在大学级学科知识和复杂跨学科任务上的表现。MMMU包含11500个多模态问题，涵盖六个核心学科，强调领域特定知识的高级推理能力。评估结果显示，先进模型如GPT-4V的准确率仅为56%，表明改进空间巨大，推动专家级人工智能的下一代多模态基础模型的发展。

MMMU-Pro：更强鲁棒性的多学科多模态理解基准

BriefGPT - AI 论文速递 ·

本文介绍了MMMU，一个新基准，用于评估多模态模型在大学级学科知识和跨学科任务上的表现。MMMU包含11500个多模态问题，涵盖六个核心学科，旨在挑战模型进行高级推理。评估结果显示，先进模型如GPT-4V的准确率仅为56%，表明仍有改进空间，MMMU旨在推动专家级人工智能的发展。

MMDU：多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

BriefGPT - AI 论文速递 ·

本文介绍了多个针对大型语言模型（LLMs）的评估基准，如M3KE、CMMLU和E-EVAL，涵盖自然科学、社会科学和K-12教育等领域。研究发现，中文优先的模型在某些学科表现优于英文模型，但在复杂科目如数学上仍需改进。同时，KMMLU和MedBench等基准揭示了韩语和医学领域LLMs的能力与局限，强调了进一步改进的必要性。

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

BriefGPT - AI 论文速递 ·