本文研究了大型语言模型(LLMs)微调过程中可能出现的安全问题,特别是有害数据的影响。研究表明,微调可能降低模型的安全对齐性,现有安全措施无法有效应对这些风险。提出了通过对抗微调和新评测标准来增强模型安全性的改进措施,并强调了未来研究的重要方向。
完成下面两步后,将自动完成登录并继续当前操作。