小红花·文摘

研究探讨了大型语言模型中的性别偏见和毒性问题，提出了自动生成测试用例的方法以减轻偏见。分析显示，有毒内容的产生与用户请求密切相关。研究评估了不同策略对模型偏差的影响，强调公平性的重要性，并提出改进模型安全性和效用的建议。