小红花·文摘

本研究探讨了大语言模型微调中帮助性与安全性之间的冲突，提出了Equilibrate RLHF框架，通过数据中心方法和自适应消息对齐策略，提升安全性对齐并优化帮助性，实验结果显示二者平衡显著改善。