OMGEval:一个开放的多语言生成评估基准测试用于大型语言模型
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
OMGEval是第一个能评估LLMs在不同语言中能力的开源测试集,包括中文、俄语、法语、西班牙语和阿拉伯语。OMGEval提供了804个问题,通过GPT-4作为仲裁者,证明OMGEval与人工评估密切相关,为研究共同体进一步理解和改进LLMs的多语言能力提供参考。
🎯
关键要点
- OMGEval是第一个能评估LLMs在不同语言中能力的开源测试集。
- OMGEval包括中文、俄语、法语、西班牙语和阿拉伯语,共提供804个开放性问题。
- 问题涵盖了LLMs的重要能力,如一般知识和逻辑推理,经过人类标注者验证。
- 非英文语言的问题经过本土化处理,以反映不同文化背景的兼容性。
- 使用GPT-4作为仲裁者自动评分,证明与人工评估密切相关。
- OMGEval的评估结果将为研究共同体理解和改进LLMs的多语言能力提供参考。
➡️