小红花·文摘

本文研究了大型语言模型（LLMs）的安全性，发现微调可能增加安全风险。尽管现有安全措施在推理时有效，但无法覆盖用户微调带来的所有风险。研究提出了Llama Guard模型，以提高LLMs的安全性，并提供了新的多任务安全数据集以降低攻击成功率。此外，探讨了LLMs在多语言环境中的毒性内容处理及科学研究中的应用问题，并提出了相应的解决方案。

轻量级安全保护栏：使用微调的BERT嵌入

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型在多语言环境中处理毒性内容的有效性，发现现有保护措施不够有效且缺乏鲁棒性，旨在识别其局限性以构建更可靠的多语言模型。

多语言毒性处理中的大型语言模型保护措施基准测试

BriefGPT - AI 论文速递 ·

研究发现，历史上处于骚扰风险中的群体更可能将Reddit、Twitter或4chan上的随机评论标记为有毒，亲身经历过骚扰的人也更可能这样做。研究展示了面向所有用户的毒性分类算法Perspective API，通过个性化模型调整平均提高86％的准确性。研究强调了提高毒性内容分类器公平性和效果的缺陷和新的设计方向。

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

BriefGPT - AI 论文速递 ·