Wasserstein Regularization Fine-Tuning for Online Reward-Weighted Flow Matching
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种在线奖励加权条件流匹配方法,有效解决了持续流生成模型在对齐用户奖励时的政策崩溃和高计算成本问题,且在多个任务中表现优异。
🎯
关键要点
- 本研究提出了一种在线奖励加权条件流匹配方法。
- 该方法有效解决了持续流生成模型在对齐用户奖励时的政策崩溃和高计算成本问题。
- 提出的方法结合Wasserstein-2正则化,允许在不依赖奖励梯度的情况下微调生成模型。
- 实现了奖励最大化与多样性保持之间的可控平衡。
- 实验结果显示,该方法在目标图像生成、图像压缩和文本图像对齐等任务中表现优异。
➡️