本文研究了大型语言模型(LLMs)的安全性,发现微调可能增加安全风险。尽管现有安全措施在推理时有效,但无法覆盖用户微调带来的所有风险。研究提出了Llama Guard模型,以提高LLMs的安全性,并提供了新的多任务安全数据集以降低攻击成功率。此外,探讨了LLMs在多语言环境中的毒性内容处理及科学研究中的应用问题,并提出了相应的解决方案。
本研究评估了大型语言模型在多语言环境中处理毒性内容的有效性,发现现有保护措施不够有效且缺乏鲁棒性,旨在识别其局限性以构建更可靠的多语言模型。
研究发现,历史上处于骚扰风险中的群体更可能将Reddit、Twitter或4chan上的随机评论标记为有毒,亲身经历过骚扰的人也更可能这样做。研究展示了面向所有用户的毒性分类算法Perspective API,通过个性化模型调整平均提高86%的准确性。研究强调了提高毒性内容分类器公平性和效果的缺陷和新的设计方向。
完成下面两步后,将自动完成登录并继续当前操作。