本研究提出了一种新的训练目标——近似变分对齐(AVA),旨在解决大型语言模型(LLM)对齐过程中奖励信号利用不足的问题。通过贝叶斯逆强化学习(BIRL)框架,AVA在奖励建模和强化学习微调方面的表现优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。