OMGEval:一个开放的多语言生成评估基准测试用于大型语言模型
原文中文,约500字,阅读约需2分钟。发表于: 。现代大型语言模型 (LLMs) 的研究旨在帮助世界各地的不同文化背景的个人,然而,先前的高级生成式评估基准主要针对英文。为此,我们介绍了 OMGEval,这是第一个可以评估 LLMs 在不同语言中的能力的开源多语言生成性测试集。OMGEval 为每种语言提供了 804 个开放性问题,涵盖了 LLMs...
OMGEval是第一个能评估LLMs在不同语言中能力的开源测试集,包括中文、俄语、法语、西班牙语和阿拉伯语。OMGEval提供了804个问题,通过GPT-4作为仲裁者,证明OMGEval与人工评估密切相关,为研究共同体进一步理解和改进LLMs的多语言能力提供参考。