PerCul: A Story-Driven Cultural Evaluation of Large Language Models in Persian

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了大型语言模型在波斯语文化适应性评估中的不足。通过引入PerCul数据集,采用故事驱动的多项选择题,旨在提高模型的文化敏感性。实验结果显示,现有模型与用户基准之间存在11.3%的差距,最佳模型的差距达到21.3%。

🎯

关键要点

  • 本研究探讨大型语言模型在波斯语文化适应性评估中的不足。
  • 引入PerCul数据集,采用故事驱动的多项选择题,以提高模型的文化敏感性。
  • 实验结果显示,现有模型与用户基准之间存在11.3%的差距。
  • 最佳模型的差距达到21.3%。
➡️

继续阅读