小红花·文摘

本研究提出了FlipGuard，一种约束优化方法，旨在解决大语言模型在偏好一致性方面的更新回退问题。实验结果表明，FlipGuard有效减轻了更新回归，同时保持了知识保留和整体表现。