评估 LLMs 在著名人士中的性别差异
原文中文,约400字,阅读约需1分钟。发表于: 。该研究评估了大型语言模型对获取事实信息的使用,特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向,并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异,尽管 GPT-4 的进展改善了性能,但并未完全消除这些性别差异,特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。
自然语言处理和大型语言模型取得进展,但存在幻觉问题。研究发现FLAN-T5-11B作为事实验证器表现最佳,超过GPT3.5和ChatGPT。研究为开发可信赖的生成模型提供见解。