小红花·文摘

本研究探讨生成语言模型中的偏见与任务特定缺陷之间的关系，提出了一种偏见缓解框架，通过指令微调减少了60%以上的刻板印象输出，强调了区分“偏见”与其他错误的重要性。