本研究提出了一种名为RL-SaLLM-F的在线偏好强化学习技术,旨在解决实时人类反馈获取困难的问题。该方法利用大型语言模型生成自增强的反馈轨迹和偏好标签,从而提高反馈的质量和效率,替代传统的“脚本教师”反馈。
完成下面两步后,将自动完成登录并继续当前操作。