AraSTEM: 一个评估大型语言模型在STEM学科知识的阿拉伯语多选题基准

📝

内容提要

本研究针对现有大型语言模型(LLMs)在知识评估方面过于侧重英语的问题,提出了一种新的阿拉伯语多选题数据集AraSTEM,旨在全面评估这些模型在STEM学科的知识。研究发现,许多现有模型在该数据集上表现不佳,强调了开发更本地化语言模型的必要性。

🏷️

标签

➡️

继续阅读