基于子空间导向模型融合的大型语言模型安全重整框架
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究发现,微调大型语言模型(LLMs)存在安全风险,恶意设计的训练样例或常用数据集可能降低LLMs的安全对齐性。当前的安全基础设施无法解决这些风险,需要进一步研究以加强对齐的LLMs的自定义微调的安全协议。
🎯
关键要点
- 微调大型语言模型(LLMs)存在安全风险。
- 恶意设计的训练样例可能降低LLMs的安全对齐性。
- 现有的安全基础设施无法覆盖微调带来的安全风险。
- 良性且常用的数据集也可能无意中降低LLMs的安全对齐性。
- 细调对齐的LLMs引入了新的安全风险。
- 需要进一步研究以加强对齐的LLMs的自定义微调的安全协议。
➡️