ROCM:一致性模型上的人类反馈强化学习

📝

内容提要

本研究针对生成模型中存在的慢生成和训练低效问题,特别是在引入人类反馈强化学习(RLHF)时出现的稀疏奖励和长时间跨度困境。我们提出了一种直接奖励优化框架,以提高一致性模型的生成效率及训练稳定性,展示了该方法在自动指标和人类评估上的竞争力或优越性,并分析了不同正则化技术对模型泛化及防止过拟合的影响。

🏷️

标签

➡️

继续阅读