ROCM:一致性模型上的人类反馈强化学习
📝
内容提要
本研究针对生成模型中存在的慢生成和训练低效问题,特别是在引入人类反馈强化学习(RLHF)时出现的稀疏奖励和长时间跨度困境。我们提出了一种直接奖励优化框架,以提高一致性模型的生成效率及训练稳定性,展示了该方法在自动指标和人类评估上的竞争力或优越性,并分析了不同正则化技术对模型泛化及防止过拟合的影响。
🏷️
标签
➡️