小红花·文摘

本文研究了大型语言模型（LLMs）微调过程中可能出现的安全问题，特别是有害数据的影响。研究表明，微调可能降低模型的安全对齐性，现有安全措施无法有效应对这些风险。提出了通过对抗微调和新评测标准来增强模型安全性的改进措施，并强调了未来研究的重要方向。