小红花·文摘

我们提出了软偏好优化（SPO）方法，使生成模型与人类偏好对齐，无需使用奖励模型。SPO通过优化自然损失函数，包括偏好损失和正则化项，在布拉德利-特里模型假设下，SPO收敛于缩放奖励的softmax，并可调节分布的“软度”。该方法在简单性、计算效率和对齐精度方面具有优势。