小红花·文摘

本研究评估大型语言模型在推理任务中的公平性与鲁棒性，特别关注非洲美式英语（AAVE）。新开发的基准ReDial显示，LLM对AAVE的表现存在显著不平等，AAVE查询对模型性能的影响超过标准英语中的拼写错误，反映出对方言用户服务的不足。