One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究评估大型语言模型在推理任务中的公平性与鲁棒性,特别关注非洲美式英语(AAVE)。新开发的基准ReDial显示,LLM对AAVE的表现存在显著不平等,AAVE查询对模型性能的影响超过标准英语中的拼写错误,反映出对方言用户服务的不足。

🎯

关键要点

  • 本研究评估大型语言模型在推理任务中的公平性与鲁棒性,特别关注非洲美式英语(AAVE)。

  • 研究开发了一个新的方言基准ReDial,以填补现有基准在方言差异上的空白。

  • 测试结果显示,LLM对AAVE的表现存在显著不平等。

  • AAVE查询对模型性能的影响超过标准英语中的拼写错误,反映出对方言用户服务的不足。

➡️

继续阅读