本研究提出了分位数奖励模型(QRM),解决了传统奖励模型无法反映人类价值多样性和复杂性的问题。实验结果表明,QRM在奖励基准测试中优于传统模型,且其分布性估计可用于提升语言模型的质量。
完成下面两步后,将自动完成登录并继续当前操作。