RLHF的替代之DPO原理解析：从RLHF、Claude的RAILF到DPO、Zephyr

原文约300字，阅读约需1分钟。发表于：。

今年5月份，斯坦福的一些研究者提出了RLHF的替代算法：直接偏好优化(Direct Preference Optimization，简称DPO)，其对应论文为《那其与ChatGPT所用的RLHF有何本质区别呢，简言之RLHF将奖励模型拟合到人类偏好数据集上，然后使用RL方法比如PPO算法优化语言模型的策略，以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)

斯坦福研究者提出了DPO算法作为RLHF的替代，DPO使用PPO算法优化语言模型的策略以输出高奖励的responses。