小红花·文摘

本研究提出了一种名为RL-SaLLM-F的在线偏好强化学习技术，旨在解决实时人类反馈获取困难的问题。该方法利用大型语言模型生成自增强的反馈轨迹和偏好标签，从而提高反馈的质量和效率，替代传统的“脚本教师”反馈。