小红花·文摘

研究发现，微调大型语言模型（LLMs）存在安全风险，恶意设计的训练样例或常用数据集可能降低LLMs的安全对齐性。当前的安全基础设施无法解决这些风险，需要进一步研究以加强对齐的LLMs的自定义微调的安全协议。