通过不安全解码路径生成探究大型语言模型的安全响应边界

本研究旨在揭示大型语言模型（LLMs）的潜在安全漏洞，尽管它们通常具备安全响应功能，实际上依然存在未被发现的风险。我们提出了一种名为监狱值解码（JVD）的新解码策略，该策略利用成本值模型作为检测器和攻击者，成功诱导安全模型生成有害内容。研究发现，LLMs可能被用作收集有害数据或发起隐秘攻击的工具，表明其安全性不足。

该研究提出了一种数据筛选框架，以增强大语言模型的安全对齐性。经过筛选的文本进行预训练可以显著减少大语言模型提供有害响应的可能性，攻击成功率降低了71%。这项研究对缓解基于训练的越狱风险和加固大语言模型的安全使用具有重要意义。

大型语言模型大语言模型安全安全对齐性数据筛选框架越狱风险预训练