FarsEval-PKBETS: A New Diverse Benchmark for Evaluating Persian Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出FarsEval-PKBETS基准,包含4000个多样化问题,旨在评估波斯语大型语言模型的性能。测试结果显示,现有模型的平均正确率低于50%,表明其在复杂波斯语任务中存在显著能力缺陷。

🎯

关键要点

  • 本研究提出FarsEval-PKBETS基准,包含4000个多样化问题。
  • 该基准旨在评估波斯语大型语言模型的性能。
  • 测试结果显示,现有模型的平均正确率低于50%。
  • 研究表明,现有模型在复杂波斯语任务中存在显著能力缺陷。
➡️

继续阅读