通过不安全解码路径生成探究大型语言模型的安全响应边界

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种数据筛选框架,以增强大语言模型的安全对齐性。经过筛选的文本进行预训练可以显著减少大语言模型提供有害响应的可能性,攻击成功率降低了71%。这项研究对缓解基于训练的越狱风险和加固大语言模型的安全使用具有重要意义。

🎯

关键要点

  • 提出了一种数据筛选框架,以增强大语言模型的安全对齐性。

  • 通过减少有害信息的数据影响或增加越狱难度来实现安全对齐。

  • 使用经过筛选的干净文本进行预训练或微调,显著改善对有害查询的响应性。

  • 在含有5%有害实例的众包数据集上预训练时,添加经过筛选的文本显著减少有害响应的可能性。

  • 攻击成功率降低了71%,代表了缓解越狱风险的重要进展。

➡️

继续阅读