小红花·文摘

本研究提出了一种名为RESTA的安全重新对齐方法，旨在降低大型视觉语言模型的有害性，同时保持性能。通过整合安全指令数据集VLGuard，模型的安全性得到了提升。此外，研究引入了FAEF框架和LLMSafeGuard，以评估和改善模型的安全性，发现微调可能引入新的安全风险，强调了加强安全协议的必要性。