小红花·文摘

提示后的偏见：大型语言模型中的持续歧视

Apple Machine Learning Research ·

本研究评估了大语言模型推荐系统中的社会偏见问题，提出了FaiRLLM评估标准和指标。通过对ChatGPT的评估，发现其在推荐时对某些敏感属性存在不公平性。研究回顾了公平性相关文献，探讨了偏见评估方法和去偏策略，强调个性化因素的重要性，以促进人工智能的公平发展。

挑战公平性：对基于大型语言模型的推荐中的偏见的全面探索

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）中的社会偏见及其对公众舆论预测的影响。研究发现，LLMs在性别和种族方面存在偏见，并提出了一种去偏策略，通过模拟社会接触显著减少了模型的偏见。此外，LLMs在多语言环境中的情感分析表现不一，强调了提升其文化适应性的必要性。

社交情感是否内在于大型语言模型？关于不同群体情感提取的实证研究

BriefGPT - AI 论文速递 ·

这篇论文探讨了大型视觉-语言模型（LVLMs）中的幻觉问题，提出了评估框架和无需训练的残差视觉解码方法，以减少幻觉现象。研究表明，开源 LVLMs 性能下降，通过引入更详细的视觉注释和新评估基准 RAH-Bench 提高模型准确性。此外，提出的去偏策略有效减轻了偏见，增强了生成内容的真实性。

更加关注图像：一种无需训练的方法来减轻 LVLM 中的幻觉

BriefGPT - AI 论文速递 ·

本文介绍了BiasBuster框架，旨在识别和减轻大型语言模型中的认知偏见。研究开发了包含16,800个提示的数据集，测试了多种去偏策略，并提出了一种自助去偏方法。评估19个主要模型后发现，它们在金融合理性方面存在不同程度的非理性，强调了大型语言模型在金融应用中的优势与弱点，以及人类认知偏见对模型的影响。

在大型语言模型推理中平衡理性偏差和认知偏见：并非所有偏见均不好

BriefGPT - AI 论文速递 ·

本文介绍了BiasBuster框架，旨在识别和减轻大型语言模型中的认知偏见。通过开发包含16,800个提示的数据集，测试了多种去偏策略，验证了自助去偏方法的有效性。研究揭示了性别偏见的存在，并提出了无需访问模型参数的去偏方法。文章还回顾了大型语言模型中的公平性研究，探讨了评估指标和干预方法，强调了未来研究的必要性。

驾驭 LLMs 朝向无偏响应：一个因果引导的去偏框架

BriefGPT - AI 论文速递 ·