AraSTEM: 一个评估大型语言模型在STEM学科知识的阿拉伯语多选题基准
📝
内容提要
本研究针对现有大型语言模型(LLMs)在知识评估方面过于侧重英语的问题,提出了一种新的阿拉伯语多选题数据集AraSTEM,旨在全面评估这些模型在STEM学科的知识。研究发现,许多现有模型在该数据集上表现不佳,强调了开发更本地化语言模型的必要性。
➡️
本研究针对现有大型语言模型(LLMs)在知识评估方面过于侧重英语的问题,提出了一种新的阿拉伯语多选题数据集AraSTEM,旨在全面评估这些模型在STEM学科的知识。研究发现,许多现有模型在该数据集上表现不佳,强调了开发更本地化语言模型的必要性。