小红花·文摘

本文研究了减轻大型语言模型毒性的策略及其对模型偏差和质量的影响。研究发现，干预策略可以优化自动指标，但会减少对边缘化团体和方言的覆盖率。强减毒干预后，人类评分员通常不同意高自动毒性得分，凸显了评估语言模型毒性的复杂性。