直接偏好优化中的参考策略理解
原文中文,约400字,阅读约需1分钟。发表于: 。指导微调大型语言模型的直接优先选择优化 (DPO) 已成为广泛使用的训练方法。本研究探讨了 DPO 的一个尚未研究的方面 - 即它对参考模型或策略的依赖性。我们在这项工作中提出了三个相关的研究问题。首先,我们探讨了 DPO 中 KL 散度约束的最佳强度,该约束惩罚与参考策略的偏差,并发现 DPO 对该强度敏感。接下来,我们通过理论和实证比较 DPO...
研究探讨了指导微调大型语言模型的优化方法的依赖性,发现DPO对KL散度约束的强度敏感,参考策略在微调中是必要的,更强的参考策略可以提高性能,但需与被微调的模型相似。这些发现为最佳实践提供了见解,并确定了未来研究的开放性问题。