FarsEval-PKBETS: A New Diverse Benchmark for Evaluating Persian Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出FarsEval-PKBETS基准,包含4000个多样化问题,旨在评估波斯语大型语言模型的性能。测试结果显示,现有模型的平均正确率低于50%,表明其在复杂波斯语任务中存在显著能力缺陷。
🎯
关键要点
- 本研究提出FarsEval-PKBETS基准,包含4000个多样化问题。
- 该基准旨在评估波斯语大型语言模型的性能。
- 测试结果显示,现有模型的平均正确率低于50%。
- 研究表明,现有模型在复杂波斯语任务中存在显著能力缺陷。
➡️