One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究评估大型语言模型在推理任务中的公平性与鲁棒性,特别关注非洲美式英语(AAVE)。新开发的基准ReDial显示,LLM对AAVE的表现存在显著不平等,AAVE查询对模型性能的影响超过标准英语中的拼写错误,反映出对方言用户服务的不足。
🎯
关键要点
-
本研究评估大型语言模型在推理任务中的公平性与鲁棒性,特别关注非洲美式英语(AAVE)。
-
研究开发了一个新的方言基准ReDial,以填补现有基准在方言差异上的空白。
-
测试结果显示,LLM对AAVE的表现存在显著不平等。
-
AAVE查询对模型性能的影响超过标准英语中的拼写错误,反映出对方言用户服务的不足。
➡️