本研究评估大型语言模型在推理任务中的公平性与鲁棒性,特别关注非洲美式英语(AAVE)。新开发的基准ReDial显示,LLM对AAVE的表现存在显著不平等,AAVE查询对模型性能的影响超过标准英语中的拼写错误,反映出对方言用户服务的不足。
完成下面两步后,将自动完成登录并继续当前操作。