本研究评估了大型语言模型在多语言环境中处理毒性内容的有效性,发现现有保护措施不够有效且缺乏鲁棒性,旨在识别其局限性以构建更可靠的多语言模型。
该研究探讨了人们与大型语言模型在多样化环境中的互动,发现毒性内容主要是由人们主动寻求或引发的。研究还发现人类在与机器互动时的思维方式发生了变化。
研究发现,历史上处于骚扰风险中的群体更可能将Reddit、Twitter或4chan上的随机评论标记为有毒,亲身经历过骚扰的人也更可能这样做。研究展示了面向所有用户的毒性分类算法Perspective API,通过个性化模型调整平均提高86%的准确性。研究强调了提高毒性内容分类器公平性和效果的缺陷和新的设计方向。
完成下面两步后,将自动完成登录并继续当前操作。