小红花·文摘

最新的语言模型对齐方法提出了一种离线强化学习优化，通过微调生成策略和任务注释，利用多样行为数据提升泛化能力。引入了一种名为Efficient Diffusion Alignment (EDA)的方法，解决连续控制问题，并扩展偏好对齐，使扩散行为与连续Q函数对齐。实验结果显示，EDA在整体性能上优于所有基准方法，即使只使用1%的Q标记数据，仍表现出色。