小红花·文摘

本研究提出了分位数奖励模型（QRM），解决了传统奖励模型无法反映人类价值多样性和复杂性的问题。实验结果表明，QRM在奖励基准测试中优于传统模型，且其分布性估计可用于提升语言模型的质量。