本研究提出了FlipGuard,一种约束优化方法,旨在解决大语言模型在偏好一致性方面的更新回退问题。实验结果表明,FlipGuard有效减轻了更新回归,同时保持了知识保留和整体表现。
完成下面两步后,将自动完成登录并继续当前操作。