通过奖励模型精华提高偏好鲁棒性优化

📝

内容提要

通过预训练、直接偏好优化和蒸馏方法,改进了离线对齐过程中偏好数据分布转移的鲁棒性,同时保留了简单的监督学习性质。

➡️

继续阅读