小红花·文摘

本研究提出了一种新的训练目标——近似变分对齐（AVA），旨在解决大型语言模型（LLM）对齐过程中奖励信号利用不足的问题。通过贝叶斯逆强化学习（BIRL）框架，AVA在奖励建模和强化学习微调方面的表现优于现有方法。