多语言推理护栏:使用课程学习的MR. Guard

📝

内容提要

本研究旨在解决大型语言模型在多语言环境下容易遭受恶意攻击的问题,尤其是缺乏安全对齐的多语言数据。我们提出了一种创新的方法,通过生成合成的多语言数据、监督微调和课程引导的群体相对策略优化框架,构建了一种具有推理能力的多语言护栏,实验结果表明该护栏在不同语言的内容过滤与检测中表现优越。

🏷️

标签

➡️

继续阅读