Soft Optimal Sampling Method for Model Alignment 本研究针对最佳抽样方法在对齐语言模型输出与人类偏好时存在的失真成本问题提出了“软最佳抽样”方法。该方法通过引入温度参数实现了原始分布与奖励最大化分布之间的平滑插值,并提供了理论保证,证明其以O(1/n)的速度收敛到最佳偏移分布,有望在实际应用中显著提高模型对齐效果。 本研究提出了一种“软最佳抽样”方法,旨在解决对齐语言模型输出与人类偏好时的失真成本问题。该方法通过温度参数实现原始分布与奖励最大化分布的平滑插值,理论上证明其以O(1/n)速度收敛,从而提升模型的对齐效果。 model 人类偏好 失真成本 对齐效果 语言模型 软最佳抽样