一种语言,多重差距:评估大型语言模型在推理任务中的方言公平性与鲁棒性
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究分析大型语言模型在推理任务中的公平性和鲁棒性,特别是对非洲美式英语(AAVE)的表现。研究开发了新的方言基准ReDial,并测试多种模型,发现这些模型对AAVE的表现不公平,且AAVE查询对性能的影响大于标准英语中的拼写错误,显示出对方言用户的服务不足。
🎯
关键要点
- 本研究分析大型语言模型在推理任务中的公平性和鲁棒性。
- 特别关注非洲美式英语(AAVE)的表现。
- 开发了新的方言基准ReDial。
- 测试了多种大型语言模型,发现对AAVE的表现不公平。
- AAVE查询对模型性能的影响大于标准英语中的拼写错误。
- 研究显示大型语言模型对方言用户的服务不足。
➡️