本研究提出了一种半自动化的偏见评估框架,结合人类洞察力,旨在解决大型语言模型(LLM)评估中的偏见识别问题。通过开发偏见的操作定义和分类方法,提高评估的有效性,降低大规模人类评估的成本和复杂性。
本文提出了一种新颖的度量方法——最大子群差异(MSD),有效解决了经典度量方法在偏见评估中的高样本复杂度问题。MSD以线性样本复杂度评估特征子群的偏差,并提供实用算法和修复路径,实证结果表明其优于其他方法。
本研究探讨大型语言模型中的性别多样性偏见,特别是对跨性别和非二元性别身份的影响。评估发现,经过对齐的模型在某些阶段可能加剧现实中的性别伤害。建议采用社区知情的偏见评估框架,以更有效识别和应对这些问题。
大型语言模型(LLMs)存在种族和性别等隐性偏见,影响用户体验和决策。研究提出了新的偏见测量方法,强调对AI系统中偏见的持续评估和缓解,以促进伦理AI的发展。
本文提出了一种评估大型语言模型偏见的新方法,构建了跨多个维度的数据集GFair,并引入GF-Think思维链方法以减轻偏见。研究表明,GPT-4在准确性和公平性方面优于其他模型,强调了公平性在人工智能中的重要性。
本文提出了一种评估预训练语言模型中偏见的方法,并在多种语言的模型上进行了元评估,证明该方法更准确。同时,本文还构建了日语和中文的自然语言推理任务评估数据集,测量了预训练语言模型的偏见倾向。
完成下面两步后,将自动完成登录并继续当前操作。