小红花·文摘

本研究探讨布拉德利-泰瑞模型在大语言模型对齐中的应用，指出其在稀疏比较情况下的有效性尚不明确。提出了一种简单的上界算法作为替代，并通过实证评估展示不同奖励建模方法的性能，为提高奖励建模的有效性提供理论基础和实用见解。