研究人员使用大型语言模型(LLM)提出了一种学习奖励的方法,通过自我对齐过程,最小化LLM和学习奖励函数之间的不一致性,提高了训练效果和效率。该方法比基于突变的方法消耗更少的GPT令牌。
本文介绍了一种新颖的批量逆向强化学习模型,通过使用折扣的稳态分布修正结合学习奖励和推荐代理评估,同时满足组合要求,并通过贝尔曼转化和 KL 正则化来改进效果和效率。
完成下面两步后,将自动完成登录并继续当前操作。