LLM 有针对性的低效率问题主要影响弱势用户
原文中文,约400字,阅读约需1分钟。发表于: 。通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验,我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明,领先的 LLM 模型在不可取的行为方面存在不均衡,对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为,从而使这些模型对于最弱势的用户成为不可靠的信息来源。
自然语言处理和大型语言模型取得进展,但存在幻觉问题。研究发现FLAN-T5-11B作为事实验证器表现最佳,超过GPT3.5和ChatGPT。研究为开发可信赖的生成模型提供见解。