Badllama 3:将安全微调从 Llama 3 中移除的方法(仅需几分钟)
原文中文,约400字,阅读约需1分钟。发表于: 。我们展示了当攻击者可以获取模型权重时,LLM 安全微调很容易被规避。我们评估了三种最先进的微调方法 - QLoRA,ReFT 和 Ortho,并展示了算法进步如何在 FLOPs 和优化能力的削减情况下实现恒定的越狱性能。我们在一分钟内从 Llama 3 8B 中剥离了安全微调,在 30 分钟内从 Llama 3 70B 中剥离,而且我们还勾勒了进一步减少这种情况的方法。
研究发现,微调大型语言模型存在安全风险,恶意设计的训练样例可能危及模型的安全对齐性,良性数据集的微调也可能降低安全性。当前的安全基础设施无法解决这些问题,需要进一步研究以加强自定义微调的安全协议。